重新索引

2024 年 8 月 29 日 | 4 分钟阅读

Pandas 重新索引的主要任务是根据新的索引调整 DataFrame，并具有可选的填充逻辑，并在前一个索引中不存在值的位置放置 NA/NaN。它返回一个新对象，除非新索引被生成为与当前索引等效，并且copy的值变为False。

重新索引用于更改 DataFrame 的行和列的索引。我们可以使用 reindex() 方法重新索引单个或多个行。新索引中的默认值如果不在 DataFrame 中，则分配为 NaN。

语法

DataFrame.reindex(labels=None, index=None, columns=None, axis=None, method=None, copy=True, level=None, fill_value=nan, limit=None, tolerance=None)

参数

labels： 这是一个可选参数，指的是新的标签或索引，以符合“axis”指定的轴。

index，columns： 这也是一个可选参数，指的是新的标签或索引。它通常更喜欢索引对象以避免重复数据。

axis： 也是一个可选参数，用于定位轴，可以是轴名称或数字。

method： 也是一个可选参数，用于填充重新索引的 DataFrame 中的空洞。它只能应用于具有单调递增/递减顺序的 DataFrame 或 Series。

None： 这是默认值，不填充间隙。

pad / ffill： 它用于将最后一个有效观测值向前传播到下一个有效观测值。

backfill / bfill： 为了填补空白，它使用下一个有效观测值。

nearest： 为了填补空白，它使用下一个有效观测值。

copy： 其默认值为 True，并返回一个新对象作为布尔值，即使传递的索引相同。

level： 它用于跨级别广播，并在传递的 MultiIndex 级别上匹配索引值。

fill_value： 它的默认值为 np.NaN，用于填充现有的缺失（NaN）值。它需要任何新元素才能成功进行 DataFrame 对齐，并在计算前使用该值。

limit： 它定义了要向前或向后填充的连续元素的最大数量。

tolerance： 这也是一个可选参数，用于确定原始标签和新标签之间用于不精确匹配的最大距离。在匹配位置，索引的值应该最符合等式 abs(index[indexer] ? target) <= tolerance。

返回值

它返回重新索引的 DataFrame。

示例 1

下面的示例显示了 reindex() 函数的工作原理，用于重新索引数据帧。在新索引中，默认值被分配为 NaN，在新索引中，数据帧中没有相应的记录。

注意：我们可以使用 fill_value 来填充缺失值。

import pandas as pd

# Create dataframe
info = pd.DataFrame({"P":[4, 7, 1, 8, 9], 
                   "Q":[6, 8, 10, 15, 11], 
                   "R":[17, 13, 12, 16, 14], 
                   "S":[15, 19, 7, 21, 9]}, 
                   index =["Parker", "William", "Smith", "Terry", "Phill"]) 

# Print dataframe
info

输出

         A    B    D    E
Parker	NaN  NaN  NaN  NaN
William	NaN  NaN  NaN  NaN
Smith	NaN  NaN  NaN  NaN
Terry	NaN  NaN  NaN  NaN
Phill	NaN  NaN  NaN  NaN

现在，我们可以使用 dataframe.reindex() 函数重新索引数据帧。

# reindexing with new index values 
info.reindex(["A", "B", "C", "D", "E"])

输出

	P	Q	R	S
A	NaN	NaN	NaN	NaN
B	NaN	NaN	NaN	NaN
C	NaN	NaN	NaN	NaN
D	NaN	NaN	NaN	NaN
E	NaN	NaN	NaN	NaN

请注意，新索引填充了 NaN 值。我们可以使用 fill_value 参数填充缺失值。

# filling the missing values by 100 
info.reindex(["A", "B", "C", "D", "E"], fill_value =100)

输出

	P	Q	R	S
A	100	100	100	100
B	100	100	100	100
C	100	100	100	100
D	100	100	100	100
E	100	100	100	100

示例 2

此示例显示了 reindex() 函数重新索引列轴的工作原理。

# importing pandas as pd
importpandas as pd
  
# Creating the first dataframe  
info1 =pd.DataFrame({"A":[1, 5, 3, 4, 2], 
                    "B":[3, 2, 4, 3, 4], 
                    "C":[2, 2, 7, 3, 4], 
                    "D":[4, 3, 6, 12, 7]}) 
# reindexing the column axis with 
# old and new index values 
info.reindex(columns =["A", "B", "D", "E"])

输出

        A     B    D    E
Parker	NaN  NaN  NaN  NaN
William	NaN  NaN  NaN  NaN
Smith	NaN  NaN  NaN  NaN
Terry	NaN  NaN  NaN  NaN
Phill	NaN  NaN  NaN  NaN

请注意，重新索引后新列中存在 NaN 值，我们可以使用函数的参数 fill_value 来删除 NaN 值。

# reindex the columns 
# fill the missing values by 25 
info.reindex(columns =["A", "B", "D", "E"], fill_value =37)

输出

        A   B   D   E
Parker	37  37  37  37
William	37  37  37  37
Smith	37  37  37  37
Terry	37  37  37  37
Phill	37  37  37  37

下一主题重置索引

我们提供所有技术（如 Java 教程、Android、Java 框架）的教程和面试问题

联系信息

G-13, 2nd Floor, Sec-3, Noida, UP, 201301, India

hr@tpointtech.com

+91-9599086977

关注我们

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Pandas 教程

Pandas Series

Pandas DataFrame

Pandas 操作

数据操作

Pandas 速查表

Pandas 索引

Pandas NumPy

Pandas 时间序列

Pandas 绘图

杂项。

面试题

重新索引

语法

参数

返回值

示例 1

注意：我们可以使用 fill_value 来填充缺失值。

相关帖子

多重索引

设置索引

Pandas 索引

重置索引

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器