如何获取机器学习数据集

2024年11月13日 | 阅读 7 分钟

机器学习领域在很大程度上依赖数据集来训练模型和做出准确的预测。数据集在 AIML 项目的成功中起着至关重要的作用,并且是成为一名熟练的数据科学家的基础。在本文中,我们将探讨在人工智能中使用的数据集类型,并详细介绍在哪里可以找到它们。

什么是数据集?

数据集是数据的集合,其中数据以某种顺序排列。数据集可以包含从数组系列到数据库表的任何数据。下表显示了数据集的示例

国家年龄薪金已购买
印度3848000不能
法国4345000是的
德国3054000不能
法国4865000不能
德国40是的
印度3558000是的

表格数据集可以被理解为数据库表或矩阵,其中每一列对应一个特定变量,每一行对应数据集的字段。表格数据集最受支持的文件类型是“逗号分隔文件”,即CSV。但是,要存储“树状数据”,我们可以更有效地使用 JSON 文件。

数据集中数据的类型

  • 数值数据:例如房价、温度等。
  • 分类数据:例如是/否、真/假、蓝/绿等。
  • 顺序数据:这些数据与分类数据类似,但可以根据比较来衡量。

注意:真实世界的数据集规模很大,在初始阶段难以管理和处理。因此,为了练习机器学习算法,我们可以使用任何虚拟数据集。

数据集的类型

机器学习涉及不同的领域,每个领域都需要特定类型的数据集。机器学习中使用的一些常见数据集类型包括

图像数据集

图像数据集包含各种图像,通常用于计算机视觉任务,如图像分类、对象检测和图像分割。

示例

  • ImageNet
  • CIFAR-10
  • MNIST

文本数据集

文本数据集包含文本信息,如文章、书籍或社交媒体帖子。这些数据集用于自然语言处理技术,如情感分析、文本分类和机器翻译。

示例

  • Gutenberg 任务数据集
  • IMDb 电影评论数据集

时间序列数据集

时间序列数据集包含随时间收集的数据点。它们通常用于预测、异常检测和模式分析。示例:

  • 股票市场数据
  • 天气数据
  • 传感器读数。

表格数据集

表格数据集是组织在表格或电子表格中的结构化数据。它们包含代表样本或观测值的行和代表特征或属性的列。表格数据集用于回归和分类等任务。文章前面提供的数据集就是表格数据集的一个例子。

数据集的需求

  • 准备充分且经过预处理的数据集对于机器学习项目至关重要。
  • 它们为训练准确可靠的模型奠定了基础。然而,处理大型数据集可能会在管理和处理方面带来挑战。
  • 为了应对这些挑战,需要有效的数据管理策略和处理算法。

数据预处理

数据预处理是准备机器学习数据集的关键阶段。它包括将原始数据转换为适合模型训练的格式。常见的数据预处理技术包括数据清洗以消除不一致或错误,标准化以将数据缩放到特定范围,特征缩放以确保特征具有相似的范围,以及通过填充或删除来处理缺失值。

在 ML 项目的开发过程中,开发人员完全依赖数据集。在构建 ML 应用程序时,数据集被分为两部分

  • 训练数据集
  • 测试数据集
How to get datasets for Machine Learning

注意:数据集的尺寸很大,因此要下载这些数据集,您的计算机必须具有快速的互联网连接。

训练数据集和测试数据集

在机器学习中,数据集通常分为两部分:训练数据集和测试数据集。训练数据集用于训练机器学习模型,而测试数据集用于评估模型的性能。这种划分可以评估模型对看不见的数据进行泛化的能力。确保数据集能够代表问题域并正确划分以避免偏差或过拟合至关重要。

机器学习数据集的流行来源

以下是可供公众免费使用的数据集列表

1. Kaggle 数据集

How to get datasets for Machine Learning

Kaggle 是为数据科学家和机器学习工程师提供数据集的最佳来源之一。它允许用户轻松查找、下载和发布数据集。它还提供了与其他机器学习工程师合作并解决复杂数据科学相关任务的机会。

Kaggle 提供各种格式的高质量数据集,我们可以轻松查找和下载。

Kaggle 数据集的链接是 https://www.kaggle.com/datasets。

2. UCI 机器学习库

UCI 机器学习库是一个重要的资源,自 1987 年以来一直被科学家和研究人员广泛使用。它包含大量按机器学习任务(如回归、分类和聚类)分类的数据集。该库中的著名数据集包括 Iris 数据集、Vehicle Assessment 数据集和 Poker Hand 数据集。

How to get datasets for Machine Learning

UCI 机器学习库的链接是 https://archive.ics.uci.edu/ml/index.php。

3. 通过 AWS 的数据集

How to get datasets for Machine Learning

我们可以搜索、下载、访问和共享通过 AWS 资源公开可用的数据集。这些数据集可以通过 AWS 资源访问,但由不同的政府组织、研究人员、企业或个人提供和维护。

任何人都可以分析和构建各种服务,使用通过 AWS 资源共享的数据。云上的共享数据集使用户能够将更多时间花在数据分析而不是数据获取上。

此源提供了各种类型的数据集以及示例和使用数据集的方法。它还提供搜索框,我们可以使用它来搜索所需的数据集。任何人都可以将任何数据集或示例添加到AWS 开放数据注册表

该资源的链接是 https://registry.opendata.aws/。

4. Google 数据集搜索引擎

Google 数据集搜索引擎帮助研究人员查找和访问来自网络不同来源的重要数据集。它索引了来自社会科学、科学和环境科学等领域的数据集。研究人员可以使用关键词查找数据集,根据特定标准过滤结果,并直接从源访问数据集。

How to get datasets for Machine Learning

Google 数据集搜索引擎的链接是 https://toolbox.google.com/datasetsearch。

5. Microsoft 数据集

Microsoft 推出了“Microsoft Research Open data”存储库,其中包含自然语言处理、计算机视觉和特定领域科学等各个领域的大量免费数据集。它提供了多样化且精心策划的数据集,这些数据集可能对机器学习项目很有价值。

How to get datasets for Machine Learning

从该资源下载或使用数据集的链接是 https://msropendata.com/。

6. Awesome Public Dataset Collection

How to get datasets for Machine Learning

Awesome public dataset collection 提供高质量的数据集,这些数据集按照农业、生物学、气候、复杂网络等主题进行良好组织。大多数数据集都可以免费获得,但有些可能不行,因此最好在下载数据集之前检查许可。

从 Awesome public dataset collection 下载数据集的链接是 https://github.com/awesomedata/awesome-public-datasets。

7. 政府数据集

有不同的来源可以获取政府相关数据。各国发布政府数据供公众使用,这些数据由不同部门收集。

提供这些数据集的目的是增加政府工作对公众的透明度,并以创新的方式使用数据。以下是一些政府数据集的链接

8. 计算机视觉数据集

How to get datasets for Machine Learning

Visual data 提供了大量特定于计算机视觉的优秀数据集,如图像分类、视频分类、图像分割等。因此,如果您想构建一个关于深度学习或图像处理的项目,那么您可以参考此来源。

从该来源下载数据集的链接是 https://www.visualdata.io/。

9. Scikit-learn 数据集

Scikit-learn 是 Python 中一个著名的机器学习库,它提供了许多内置数据集供练习和实验。这些数据集可以通过 scikit-learn API 访问,并可用于学习各种机器学习算法。Scikit-learn 同时提供玩具数据集(小巧且经过优化)和真实世界数据集(复杂度更高)。scikit-learn 数据集的示例包括 Iris 数据集、Boston Housing 数据集和 Wine 数据集。

How to get datasets for Machine Learning

从该来源下载数据集的链接是 https://scikit-learn.cn/stable/datasets/index.html。

数据伦理和隐私

数据伦理和隐私是机器学习项目中的基本考虑因素。必须确保数据的收集和使用符合道德规范,尊重隐私权并遵守相关法律法规。数据专家应采取措施保护数据隐私,获得适当的同意,并负责任地处理敏感数据。道德准则和隐私框架等资源可以为在数据收集和使用中保持道德惯例提供指导。

结论

总而言之,数据集是成功机器学习项目的基础。理解不同类型的数据集、数据预处理的重要性以及训练和测试数据集的作用是构建强大模型面向成功的关键步骤。通过利用 Kaggle、UCI 机器学习库、AWS、Google 数据集搜索、Microsoft 数据集和政府数据集等流行来源,数据科学家和研究人员可以访问广泛的数据集来用于他们的机器学习项目。在整个数据生命周期中考虑数据伦理和隐私至关重要,以确保负责任和道德地使用数据。通过正确的数据集和道德实践,机器学习模型可以实现准确的预测并产生有价值的见解。


下一主题数据预处理