Python机器学习从入门到高级:玩转日期型数据(含代码)

简介: Python机器学习从入门到高级:玩转日期型数据(含代码)

Python机器学习:日期型数据处理

最近小伙伴问我有什么刷题网站推荐,在这里推荐一下牛客网,里面包含各种面经题库,全是免费的题库,可以全方面提升你的职业竞争力,提升编程实战技巧,赶快来和我一起刷题吧!牛客网链接|python篇
  • 🌸个人主页:JoJo的数据分析历险记
  • 📝个人介绍:小编大四统计在读,目前保研到统计学top3高校继续攻读统计研究生
  • 💌如果文章对你有帮助,欢迎✌关注、👍点赞、✌收藏、👍订阅专栏

在我们进行一些时间序列问题时,往往要对日期型数据进行分析处理,本章介绍一下如何使用python处理日期型数据

💮1. 将字符串转换成日期

# 导入相关库;
import pandas as pd 
import numpy as np
# 创建字符串
date_strings = np.array(['03-04-2005 11:35 PM',
                         '23-05-2010 12:01 AM',
                         '04-09-2009 09:09 PM'])
# 转换成datetime 类型的数据
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p') for date in date_strings]
[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]



# 我们还可以增加errors参数来处理错误
# 转换成datetime类型的数据
[pd.to_datetime(date, format='%d-%m-%Y %I:%M %p', errors = 'coerce') for date in date_strings]
[Timestamp('2005-04-03 23:35:00'),
 Timestamp('2010-05-23 00:01:00'),
 Timestamp('2009-09-04 21:09:00')]


当传入errors = 'coerce' 参数时,即使转换错误也不会报错,但是会将错误的值返回为Nan(缺失值)

🏵️2. 处理时区

一般而言,pandas的对象默认是没有时区的,不过我们也可以在创建对象时通过tz参数指定时区

import pandas as pd
# 创建一个dataframe
pd.Timestamp('2017-05-01 06:00:00', tz = 'Europe/London')
Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')



# 可以使用tz_locallize添加时区信息
data = pd.Timestamp('2017-05-01 06:00:00')
# 设置时区
data_in_london = data.tz_localize('Europe/London')
data_in_london
Timestamp('2017-05-01 06:00:00+0100', tz='Europe/London')



# 我们还可以使用tz_convert来转换时区

data_in_london.tz_convert('Asia/Chongqing')
Timestamp('2017-05-01 13:00:00+0800', tz='Asia/Chongqing')



# Series对象还可以对每一个元素应用tz_localiz和tz_convert
dates = pd.Series(pd.date_range('2002-02-02', periods=3, freq='M'))
# 设置时区
dates.dt.tz_localize('Asia/Chongqing')
0   2002-02-28 00:00:00+08:00
1   2002-03-31 00:00:00+08:00
2   2002-04-30 00:00:00+08:00
dtype: datetime64[ns, Asia/Chongqing]


🌹3. 选择日期和时间

dataframe = pd.DataFrame()
dataframe['date'] = pd.date_range('2001-01-01 01:00:00', periods=100000, freq='H')

删选两个日期之间的观察值, 用 & 来表示且的关系

dataframe[(dataframe['date']>'2002-01-01 01:00:00') & (dataframe['date']<='2002-1-1 04:00:00')]
date
8761 2002-01-01 02:00:00
8762 2002-01-01 03:00:00
8763 2002-01-01 04:00:00

另一种方法,将date这一列设为索引,然后用loc删选

dataframe = dataframe.set_index(dataframe['date'])
dataframe.loc['2002-1-1 01:00:00':'2002-1-1 04:00:00']
date
date
2002-01-01 01:00:00 2002-01-01 01:00:00
2002-01-01 02:00:00 2002-01-01 02:00:00
2002-01-01 03:00:00 2002-01-01 03:00:00
2002-01-01 04:00:00 2002-01-01 04:00:00

🌺4. 将数据切分成多个特征

df = pd.DataFrame()
df['date'] = pd.date_range('1/1/2001', periods=150, freq='w')

创建年月日时分的特征

df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day
df['hour'] = df['date'].dt.hour
df['minute'] = df['date'].dt.minute
df.head()
date year month day hour minute
0 2001-01-07 2001 1 7 0 0
1 2001-01-14 2001 1 14 0 0
2 2001-01-21 2001 1 21 0 0
3 2001-01-28 2001 1 28 0 0
4 2001-02-04 2001 2 4 0 0

🌻5.计算两个日期之间的时间差

import pandas as pd
dataframe = pd.DataFrame()
dataframe['Arrived'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-04-2017')]
dataframe['left'] = [pd.Timestamp('01-01-2017'), pd.Timestamp('01-06-2017')]
# 计算两个特征直接的时间间隔
dataframe['left'] - dataframe['Arrived']
0   0 days
1   2 days
dtype: timedelta64[ns]

本章的介绍到此介绍,如果文章对你有帮助,请多多点赞、收藏、评论、关注支持!!

相关文章
|
6天前
|
存储 缓存 Java
Python高性能编程:五种核心优化技术的原理与Python代码
Python在高性能应用场景中常因执行速度不及C、C++等编译型语言而受质疑,但通过合理利用标准库的优化特性,如`__slots__`机制、列表推导式、`@lru_cache`装饰器和生成器等,可以显著提升代码效率。本文详细介绍了这些实用的性能优化技术,帮助开发者在不牺牲代码质量的前提下提高程序性能。实验数据表明,这些优化方法能在内存使用和计算效率方面带来显著改进,适用于大规模数据处理、递归计算等场景。
38 5
Python高性能编程:五种核心优化技术的原理与Python代码
|
2月前
|
Python
课程设计项目之基于Python实现围棋游戏代码
游戏进去默认为九路玩法,当然也可以选择十三路或是十九路玩法 使用pycharam打开项目,pip安装模块并引用,然后运行即可, 代码每行都有详细的注释,可以做课程设计或者毕业设计项目参考
65 33
|
16天前
|
数据采集 Web App开发 数据可视化
Python用代理IP获取抖音电商达人主播数据
在当今数字化时代,电商直播成为重要的销售模式,抖音电商汇聚了众多达人主播。了解这些主播的数据对于品牌和商家至关重要。然而,直接从平台获取数据并非易事。本文介绍如何使用Python和代理IP高效抓取抖音电商达人主播的关键数据,包括主播昵称、ID、直播间链接、观看人数、点赞数和商品列表等。通过环境准备、代码实战及数据处理与可视化,最终实现定时任务自动化抓取,为企业决策提供有力支持。
|
2月前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
95 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
2月前
|
JavaScript API C#
【Azure Developer】Python代码调用Graph API将外部用户添加到组,结果无效,也无错误信息
根据Graph API文档,在单个请求中将多个成员添加到组时,Python代码示例中的`members@odata.bind`被错误写为`members@odata_bind`,导致用户未成功添加。
47 10
|
2月前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
2月前
|
数据可视化 Python
以下是一些常用的图表类型及其Python代码示例,使用Matplotlib和Seaborn库。
通过这些思维导图和分析说明表,您可以更直观地理解和选择适合的数据可视化图表类型,帮助更有效地展示和分析数据。
92 8
|
2月前
|
数据采集 存储 XML
python实战——使用代理IP批量获取手机类电商数据
本文介绍了如何使用代理IP批量获取华为荣耀Magic7 Pro手机在电商网站的商品数据,包括名称、价格、销量和用户评价等。通过Python实现自动化采集,并存储到本地文件中。使用青果网络的代理IP服务,可以提高数据采集的安全性和效率,确保数据的多样性和准确性。文中详细描述了准备工作、API鉴权、代理授权及获取接口的过程,并提供了代码示例,帮助读者快速上手。手机数据来源为京东(item.jd.com),代理IP资源来自青果网络(qg.net)。
|
Python 存储
Python的高级特征你知多少?
IEEE Spectrum 于9月6日发布了2019年最受欢迎的编程语言排名,无疑Python蝉联第一,成绩颇为亮眼。从前年开始,Python 就开始霸占榜单长达 2 年,成为编程市场上份额最高的语言。 Python 多好用不用多说,大家看看自己用的语言就知道了。但是 Python 隐藏的高级功能你都 get 了吗?本文中,作者列举了 Python 中五种略高级的特征以及它们的使用方法,快来一探究竟吧!
1021 0
Python的高级特征你知多少?
|
2月前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!