Python Pandas 教程

17 Mar 2025 | 4 分钟阅读
Python Pandas

术语 "Pandas" 指的是一个用于在 Python 中操作高性能数据的开源库。本教程面向初学者和专家。

它由 Wes McKinney 于 2008 年创建,用于 Python 中的数据分析。Pandas 是一个开源库,可在 Python 中提供高性能的数据操作。我们的教程涵盖了 Pandas 的所有基本和高级概念,例如 Numpy、数据操作和时间序列。

Pandas 简介

Pandas 的名称来源于 "面板数据" 一词,这意味着多维数据的计量经济学。它由 Wes McKinney 于 2008 年创建,用于 Python 中的数据分析。

数据分析需要处理,例如重组、清理、合并等。Numpy、Scipy、Cython 和 Panda 只是可用的快速数据处理工具中的一部分。然而,我们倾向于使用 Pandas,因为使用 Pandas 比其他工具更快、更简单、更具表现力。

由于 Pandas 是建立在 Numpy 包之上的,因此预计 Numpy 将与 Pandas 一起使用。

在 Pandas 之前,Python 可以进行数据规划,但它只为数据分析提供了有限的支持。因此,Pandas 进入了画面并增强了数据分析能力。无论数据的来源如何,它都可以执行处理和分析它所必需的五个关键步骤:加载、操作、准备、建模和分析。

Pandas 的主要特点

  • 它有一个快速且高效的 DataFrame 对象,具有标准和自定义索引。
  • 用于重塑和转换信息数据集。
  • 用于聚合和转换,按数据分组。
  • 它用于对齐数据并集成缺失的数据。
  • 提供时间序列功能。
  • 处理各种格式的各种数据集,例如矩阵数据、异构表格数据和时间序列。
  • 管理数据集的多种操作,包括子集、切片、过滤、groupBy、重新排序和重塑。
  • 它与 SciPy 和 scikit-learn 等不同库集成。
  • 执行速度很快,并且可以使用 Cython 进一步加速它。

Pandas 的优势

以下是使用 pandas 优于其他语言的优势

数据表示:通过其 DataFrame 和 Series,它以适合数据分析的方式呈现数据。

清晰的代码:Pandas 清晰的 API 允许您专注于代码中最重要的部分。通过这种方式,它为用户提供了清晰简洁的代码。

DataFrame 和 Series 是 Pandas 提供的用于处理数据的两个数据结构。下面将讨论这些数据结构

1) Series

它定义为一个能够存储各种数据类型的一维数组。“索引”一词是指系列的行标签。我们可以毫不费力地将列表、元组和字典转换为使用 "series" 方法的系列。系列中不能包含多个列。只存在一个参数

数据:它可以是任何列表、字典或标量值。

从数组创建 Series

在创建 Series 之前,首先,我们必须导入 numpy 模块,然后在程序中使用 array() 函数。

输出

0   P
1   a
2   n
3   d
4   a
5   s
dtype: object

说明:在此代码中,首先,我们使用 pdnp 别名导入了 pandasnumpy 库。然后,我们获取一个名为 "info" 的变量,该变量由一些值的数组组成。我们通过一个 Series 方法调用了 info 变量,并将其定义在一个 "a" 变量中。通过调用 print(a) 方法,系列已打印。

Python Pandas DataFrame

它是 pandas 中广泛使用的信息设计,并使用命名的斧头(线和段)处理二维显示。作为存储数据的标准方法,DataFrame 具有两个不同的索引 - 行索引和列索引。它具有以下特征

这些部分可以有异构类型,例如 int、bool 等。

它可以被认为是带有索引行和列的系列结构字典。它被称为“列”用于行,而“索引”用于列。

使用 List 创建 DataFrame

我们可以使用列表轻松地在 Pandas 中创建一个 DataFrame。

输出

      0
0   Python
1   Pandas

说明:在此代码中,我们已经定义了一个名为“x”的变量,它包含字符串值。在一个列表上,通过调用 DataFrame 构造函数来打印这些值。

前提条件

在学习 Python Pandas 之前,您应该对计算机编程术语和任何编程语言有一个基本的了解。

目标受众

我们的 Python Pandas 教程旨在帮助初学者和专业人士。

问题

我们保证您在本 Python Pandas 教程中不会发现任何问题。但是,如果存在任何错误,请在联系表格中发布问题。