如何直接将 Kaggle 数据集导入 Google Colab

2025年3月17日 | 阅读 3 分钟

在本文中,我们将介绍将 Kaggle 数据集导入 Google Colab 的过程。

开始

在本节中,我们将介绍两种不同的方式来开始使用 Colab。第一种方式是通过 Kaggle API 下载数据集,然后我们就可以使用了。另一种方法是从 Kaggle 网站手动下载数据集,并将其用于生产或分析目的。在首次登录您的 Google 帐户后,请访问 https://colab.research.google.com。

几乎所有有抱负的数据科学家都使用 Kaggle。那里存放着各种领域的数据集。存在着所有可以想象到的用例的数据集,包括医疗领域、电子商务,甚至天体物理学。用户通过练习各种数据集来展示他们的数据科学和机器学习专业知识。

Kaggle 数据集的大小各不相同。某些数据集的大小可能从不到 1 MB 到 100 GB 不等。此外,某些深度学习技术需要 GPU 支持,这会增加训练时间。Google Colab 是一项有前景的技术,可以帮助初学者在云环境中测试他们的程序。

1. 将 Kaggle 数据集下载到 Jupyter Notebook 中

选择 Kaggle 上的数据集应该是您的首要且最重要的任务。此外,您还可以选择比赛中的数据集。本文我选择了两个数据集:一个随机选择的,一个来自当前比赛。

2. 下载后安装必需的软件包。

3. 下载 API 凭据

要从 Kaggle 下载数据,我们必须登录 Kaggle 服务。为此,我们需要一个 API 令牌。您可以从 Kaggle 帐户的个人资料页面快速生成此令牌。只需访问我们的 Kaggle 个人资料,然后从那里进行操作。

在下一页上,我们将看到一个 API 部分和一个“创建新的 API 令牌”按钮。当您单击它时,将下载一个包含您的登录信息和密钥的 kaggle.json 文件。在接下来的阶段,我们将使用用户名和密钥。

选择“帐户”选项卡后,向下滚动到 API 部分。

登录信息和 API 密钥将以 Kaggle.json 文件形式下载。您只需执行此步骤一次;每次下载数据集时都不需要创建凭据。

4. 复制 Kaggle 数据集的链接并将其粘贴到“开放数据集库”以下载它。

启动 Google Colab 并连接到云主机(基本上启动笔记本界面)。之后,上传您刚刚从 Kaggle 获取的“Kaggle.json”文件。

How to Import Kaggle Datasets Directly into Google Colab
How to Import Kaggle Datasets Directly into Google Colab

我们刚刚学习了如何使用 Google Colab 从 Kaggle 导入数据集。很可能我们只想下载一个文件,因为我们只关心它。然后,我们可以将“-f”标志与文件名一起使用。这将仅下载该文件。contests 和 datasets 命令都支持“-f”标志。

5. 现在我们有了数据集,就可以使用了。

  • 用于读取文件的 Excel 文件
  • 用于读取文件的 CSV 文件
  • 使用文本文件读取文件

输出

How to Import Kaggle Datasets Directly into Google Colab

第二种方法是快速下载 Kaggle 数据集

  1. 在 Kaggle 网站上打开“数据集”选项卡。
  2. 选择任何数据集,然后按“下载”按钮。
  3. 解压缩下载的文件(如果它是 Zip 格式)。
  4. 将您的数据集作为文件或文件夹上传到 Google Colab Notebook。如提供的图像所示,选择“上传您的文件夹/文件”后,您将有机会提交您的文件或文件夹。
  5. 我们的数据集现在已成功上传到 Google Colab Notebook。
  6. 我们的 Kaggle 数据集现在可供使用。

Google Colab 的优点

Google Colab 是一个用于练习数据科学问题的绝佳工具。此免费 GPU 支持是 Colab 的主要优势之一。Google Colab 帮助数据科学爱好者解决他们的硬件问题,因为他们最初在计算资源方面受到限制。由于 Colab 笔记本由 Linux 实例提供支持,因此您可以轻松地与内核交互并运行所有标准的 Linux 命令。