Pandas 索引

2024 年 8 月 29 日 | 阅读 3 分钟

Pandas Index 定义为从 DataFrame 中选择特定行和列数据的关键工具。它的任务是组织数据并提供快速的数据访问。它也可以被称为 子集选择

索引中的值以 粗体 字体显示,索引的单个值称为 标签

如果我们要比较带索引和不带索引的数据访问时间,我们可以使用 %%timeit 来比较各种访问操作所需的时间。

我们还可以像通过 Series 或 DataFrame 访问任何数据的地址一样定义一个索引。DataFrame 是三个不同组件的组合,即 索引数据

轴和轴

轴被定义为指代行和列的常用术语,而轴是这些行和列的集合。

创建索引

首先,我们必须获取一个包含用于索引的一些数据的 csv 文件。

输出

    Name             Hire Date    Salary      Leaves Remaining
0  John Idle          03/15/14    50000.0       10
1  Smith Gilliam      06/01/15    65000.0       8
2  Parker Chapman     05/12/14    45000.0       10
3  Jones Palin        11/01/13    70000.0       3
4  Terry Gilliam      08/12/14    48000.0       7
5   Michael Palin     05/23/13    66000.0       8

示例 1

输出

    Name            Hire Date     Salary
0  John Idle         03/15/14     50000.0
1  Smith Gilliam     06/01/15     65000.0
2  Parker Chapman    05/12/14     45000.0
3  Jones Palin       11/01/13     70000.0
4  Terry Gilliam     08/12/14     48000.0
5  Michael Palin     05/23/13     66000.0

示例 2

输出

     Name            Salary         
0  John Idle         50000.0 
1  Smith Gilliam     65000.0 
2  Parker Chapman    45000.0 
3  Jones Palin       70000.0 
4  Terry Gilliam     48000.0 
5   Michael Palin    66000.0 

设置索引

set_index”用于使用现有列设置 DataFrame 索引。索引可以替换现有索引,也可以扩展现有索引。

它将列表、Series 或 DataFrame 设置为 DataFrame 的索引。

输出

            Name       Year    Leaves
1   1      Parker      2011     10
2   4      Terry       2009     15
3   9      Smith       2014     9 
4   16     William     2010     4

多重索引

我们还可以在数据中拥有多个索引。

示例 1

输出

MultiIndex(levels=[[nan, None, NaT, 128, 2]],
codes=[[0, -1, 1, 2, 3, 4]])

重置索引

我们还可以使用“reset_index”命令重置索引。让我们再次看看“cm”DataFrame。

示例

输出

   index   name      Language
0	1      William     C
1	2      Smith      Java
2	3      Parker     Python
3	4      Phill      NaN

下一主题多级索引