将 CSV 文件加载到 Colab 的 3 种方法

2025年1月7日 | 5 分钟阅读

Python 是一种高级、解释型编程语言,以其简洁和清晰而闻名。它支持多种编程范式,包括过程式、面向对象式和函数式编程模式。Python 的设计理念强调代码的可读性,其语法允许程序员用比 C++ 或 Java 等语言更少的代码行来实现特定的原则。

Python 的主要特点包括动态类型、自动内存管理(垃圾回收)以及支持从 Web 开发、数据分析到人工智能和科学计算等众多功能的全面标准库。Python 的多功能性使其深受初学者和经验丰富的开发人员的喜爱,能够快速原型化和开发复杂的应用程序。其社区驱动的开发和开源性质促成了庞大的库和框架生态系统,使其能够胜任各种领域和应用。

Google Colab

Google Colab,简称 Google Colaboratory,是 Google 提供的一个基于云的交互式编程和协作平台。它允许用户通过网络浏览器编写和执行 Python 代码,而无需在本地安装任何环境。Google Colab 的一些主要功能包括:

  • 免费 GPU 和 TPU 支持:Colab 提供 GPU(图形处理单元)和 TPU(张量处理单元)的访问权限,以加速计算,这对于处理深度学习任务尤其有用。
  • 集成环境:它与 Google Drive 集成,可以无缝访问存储在 Google 云存储中的文件和数据。这使得直接加载数据集和存储输出到 Google Drive 变得容易。
  • 笔记本共享:Colab 笔记本可以轻松地与他人共享,使其成为协作的绝佳工具。用户可以实时查看和评论笔记本,从而促进团队合作和教学。
  • 富文本和代码支持:Colab 笔记本支持使用 Markdown 进行富文本格式化,并且可以交互式地执行 Python 代码单元。这使其既适用于撰写清晰的文档,也适用于进行数据分析或机器学习实验。
  • 预装库:Colab 预装了许多流行的库,包括 TensorFlow、PyTorch、Pandas 和 Scikit-learn,从而减少了设置时间,并允许立即使用这些工具。

将 CSV 文件加载到 Colab 的 3 种方法

方法 1:使用 Pandas 库

Pandas 是一个广泛使用的 Python 库,用于数据操作和分析。它提供了一个方便的 `read_csv()` 函数,可以将 CSV 文件直接加载到 Pandas DataFrame 中,DataFrame 是一个二维标记数据结构。

示例

输出

 
       PassengerId   Survived  Pclass  \
0            1               0            3   
1            2               1            1   
2            3               1            3   
3            4               1            1   
4            5               0            3   
Name           Sex    Age     SibSp              \
0                                            Braund, Mr. Owen Harris         male   22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...      female  38.0      1   
2                                                   Heikkinen, Miss. Laina      female  26.0      0   
3             Futrelle, Mrs. Jacques Heath (Lily May Peel)      female  35.0      1   
4                                               Allen, Mr. William Henry         male  35.0      0   
 
         Parch            Ticket              Fare          Cabin       Embarked  
0          0             A/5 21171         7.2500       NaN                S  
1          0             PC 17599          71.2833      C85                C  
2          0     STON/O2. 3101282   7.9250     NaN                S  
3          0               113803             53.1000    C123               S  
4          0               373450               8.0500     NaN               S  

说明

  • `import pandas as pd`: 导入 Pandas 库,并为其指定别名 `pd` 以方便使用。
  • `url = '...'`: 指定 CSV 文件的 URL。您可以将其替换为您的 CSV 文件 URL。
  • `pd.read_csv(url)`: 从指定的 URL 读取 CSV 文件,并将其加载到 DataFrame `df` 中。
  • `print(df.head())`: 输出 DataFrame 的前几行,以验证 CSV 文件是否已成功加载。

方法 2:使用 wget 命令

Colab 允许您通过在命令前加上 `!` 来运行 shell 命令。`wget` 命令用于直接将文件从网络下载到 Colab 环境中。

示例

输出

 
Saving to: 'titanic.csv'
titanic.csv         100%[===================>]  58.89K  --.-KB/s    in 0.04s   
2024-07-03 15:49:24 (1.30 MB/s) - 'titanic.csv' saved [60302/60302]
 
    PassengerId   Survived  Pclass  \
0            1               0            3   
1            2               1            1   
2            3               1            3   
3            4               1            1   
4            5               0            3   
                                                                             \
0                                            Braund, Mr. Owen Harris         male   22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...      female  38.0      1   
2                                                   Heikkinen, Miss. Laina      female  26.0      0   
3             Futrelle, Mrs. Jacques Heath (Lily May Peel)      female  35.0      1   
4                                               Allen, Mr. William Henry         male  35.0      0   
 
         Parch            Ticket              Fare          Cabin       Embarked  
0          0             A/5 21171         7.2500       NaN                S  
1          0             PC 17599          71.2833      C85                C  
2          0     STON/O2. 3101282   7.9250     NaN                S  
3          0               113803             53.1000    C123               S  
4          0               373450               8.0500     NaN               S     

说明

  • `!Wget -O 'big.csv' 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/big.csv'`: 从指定的 URL 下载 CSV 文件,并将其另存为 `big.csv` 在当前目录中。
  • `pd.read_csv('big.csv')`: 将本地保存的 CSV 文件读取到 Pandas DataFrame `df` 中。
  • `print(df.head())`: 输出 DataFrame 的前几行,以确认加载。

方法 3:上传功能

Colab 提供了一个附加功能,允许您从本地计算机选择文件并直接上传到 Colab 环境中。

示例

输出

 
Saving Marks.csv to Marks (5).csv
dict_keys(['Marks (5).csv'])
File 'data.csv' not found in uploaded files.   

说明

  • `uploaded.keys()`: 这行代码会打印 `uploaded` 字典中的所有键。它有助于验证上传文件的确切名称。
  • `if 'data.csv' in uploaded`: 在尝试使用 `pd.read_csv(io.BytesIO(uploaded['data.csv']))` 读取之前,检查键 `'data.csv'` 是否存在于 `uploaded` 字典中。
  • 如果文件名不同或存在大小写问题(例如 `'Data.csv'` vs `data.csv'`),请根据实际上传的内容相应地调整代码。