时间序列数据集

2025 年 6 月 4 日 | 阅读 6 分钟

时间序列数据集是数据科学和分析中一种重要的数据类型,特别是在理解历史模式至关重要的数据领域。在时间序列中,您以固定的时间间隔记录测量值,这些测量值表示值的演变方式。这些示例用于金融、经济、气候和医学。

时间序列数据的要点在于发现数据中的趋势和模式,可用于预测未来。这种预测能力使其成为决策的宝贵工具。时间序列分析利用不同的分析和建模方法来绘制数据图表,找出数据的底层结构,开发生成此类数据的模型,以及研究生成数据的机制,从而为预测和控制提供工具。

预测股票价格、天气和销量,或者将它们与日常机器维护和环境变化结合起来是一些常见的用例。存在许多公共时间序列数据集,为研究和应用提供了有用的资源。以下是不同领域中几个重要的时间序列数据集列表。

不同领域的时间序列数据集

1. M4竞赛数据集

它包含来自人口统计、金融、宏观经济和工业等不同领域的大约 100,000 个时间序列。特别是,它应用于预测竞赛和时间序列模型的基准测试。

2. UCI机器学习存储库 – 家庭用电量

该数据集包含一个家庭近 4 年的电力消耗测量数据,适用于能源消耗建模和预测。

3. Yahoo Finance 股票价格

该数据集是许多上市公司历史股票价格的数据集。它在金融市场建模和预测方面很受欢迎。

4. FRED(联邦储备经济数据)

FRED 由圣路易斯联邦储备银行维护,提供大量与通货膨胀、利率、就业、GDP 等相关的经济数据。

5. NASA 的地球数据

该汇编包含环境时间序列(温度、降水、大气状况),用于气候研究和环境监测。

6. NOAA 全球历史气候网络 GHCN

该数据集提供来自全球气象站的每日和每月气候数据,可用于分析更长时期内的气候。

7. Kaggle 时间序列数据集

Kaggle 包含零售、金融和气象等领域的多个时间序列数据集,经常与竞赛和内核一起提供以供研究。

8. Rossmann 商店销售额

该数据集包含 Rossmann 零售商店的历史销售额和客户数据以及随后发生的促销活动,可用于零售商店的预测。

9. 风力涡轮机 SCADA 数据集

从风力涡轮机获得的 SCADA(监控和数据采集)数据以时间传感器读数的形式存在。但是,这对于提取性能和进行预测性维护非常有用。

10. 比特币历史数据

该数据集包含比特币价格和交易量的波动,这是加密货币市场建模的基础。

11. Google Trends

Google Trends 以搜索查询的流行度(按地区和主题)的形式提供时间序列,常用于分析消费者行为和趋势。

12. 空气质量数据

包含随时间累积的全球空气质量指标,可用于环境健康研究和污染预测。

13. 单变量时间序列数据集

单变量时间序列数据集的特点是随时间变化的单个变量。由于其易用性和易于安装的流程,它们非常适合初次使用的用户。此类数据集可以轻松地在ExcelPython等工具中呈现,可以与预测进行比较,并且可用于经典和现代的预测方法。澳大利亚莫纳什大学 Rob Hyndman 教授设计的“时间序列数据库”是此类数据集的知名来源之一。

14. 洗发水销售数据集

洗发水销售数据集包含 3 年间 36 个月的洗发水销售观察数据。数据是销售量,它被广泛用于演示基本的预测技术。它由 Makridakis、Wheelwright 和 Hyndman 于 1998 年提出,非常适合零售环境中的时间序列趋势分析。

15. 每日最低温度数据集

该数据集包含墨尔本(澳大利亚)从 1981 年到 1990 年的每日最低温度记录,共 3,650 个观测值。以摄氏度计,它是分析季节性模式和随时间推移的天气模式的宝贵资源。澳大利亚气象局收集了数据。

16. 月度太阳黑子数量数据集

月度太阳黑子数量数据集包含 230 多年(1749-1983 年)的太阳黑子数量,提供 2,820 条月度记录。每个数据点代表观测到的太阳黑子数量,可用于检查天文学中的太阳周期和长期模式。该数据集可追溯到 Andrews & Herzberg 于 1985 年的工作。

17. 加州每日女性出生数据集

该数据集提供了 1959 年加州每天的女性出生人数,共 365 个每日观测值。它主要用于人口统计学和健康方面的时间序列分析。Newton 于 1988 年汇编了该数据集,有助于检查出生率的每日模式和变化。

18. 多变量时间序列数据集

多变量时间序列数据集是指在时间段内采集多个变量的数据集,从而揭示更多的分析变异性。它们非常适合机器学习应用,可以进行更复杂的预测和分类程序。UCI 机器学习存储库是用于多变量数据集的著名来源之一;它为众多领域提供了多样化的数据集。

19. EEG 视线状态数据集

EEG 视线状态数据集包含 14,980 条时间顺序的 EEG 记录,每条记录长 117 秒,每个观测值包含 15 个特征。目的是根据大脑活动对受试者是睁着眼睛 (0) 还是闭着眼睛 (1) 进行分类。该数据集常用于生物医学信号处理和脑机接口的研究。

20. 入住率检测数据集

该数据集包含在房间内每分钟记录的 20,560 个环境读数,将用于预测房间是否有人入住。它包含七个属性,例如温度、湿度和光照强度。它由 Luis Candanedo 在 UMONS 开发,包含 3 种原始数据和转换数据的组合,用于各种任务,例如训练和测试、智能建筑等。

21. 臭氧水平检测数据集

臭氧水平检测数据集涵盖六年的环境数据,包含 2,536 条记录和 73 个属性。它旨在利用空气质量指标来预测一天是否为“臭氧日”(1) 或不是 (0)。数据集包含 1 小时和 8 小时臭氧峰值模型,1 小时格式通常用于环境监测中的分类目的。

22. Google Trends 数据集

Google Trends 数据集包含时间序列数据,指示特定搜索词随时间推移的相对流行度。值为相对于总搜索量的标准化值,以显示一个词在Google中的搜索频率,这是分析公众兴趣和不同地区及时间段内的行为模式的有用工具。

23. 纽约市出租车数据集

该数据集包含纽约市出租车的时序数据,提供详细信息。它包含上车和下车时间地点、行驶里程、车费、交通工具价格和乘客数量等信息。它常用于城市出行研究、车费预测、需求建模和异常检测。

24. 北京多站点空气质量数据集

北京多站点空气质量数据集提供北京不同监测站的每小时空气质量测量数据。它包含 PM2.5、PM10、SO2、NO2、CO 和 O3 浓度等变量,使其成为环境监测、污染物预测和空气质量措施有效性评估的有用工具。

25. Wikipedia 网站流量时间序列数据集

该数据集监控了多个 Wikipedia 文章随时间的网站流量,并为任何给定的 Wikipedia 文章提供了浏览量、独立访客数、编辑数和贡献者数等数据。它有助于分析在线内容流行度的趋势、信息传播模式以及后续时期的数字参与模式。

26. 全球陆海异常时间序列

该数据集包含全球陆地和海洋区域的地表温度异常的时间序列数据。每个值是观测温度与历史参考期间平均温度之间的差值。它是研究气候变化变化趋势和全球温度长期变化的重要材料。


下一主题半监督学习