Python Pandas 数据操作

2024 年 8 月 29 日 | 阅读 3 分钟

在 Pandas 中,有多种用于 DataFrame 的有用的数据操作,如下所示:

行和列选择

我们可以通过传递行和列的名称来选择 DataFrame 的任何行和列。当您从 DataFrame 中选择它时,它会变成一维的,并被视为 Series。

过滤数据

我们可以通过在 DataFrame 中提供一些布尔表达式来过滤数据。

注意:如果我们要将布尔结果传递到 DataFrame 中,则它将显示所有结果。

Null 值

当未向项目提供任何数据时,可能会出现空值。各种列可能不包含任何值,这些值通常表示为 NaN。在 Pandas 中,有几个有用的函数可用于检测、删除和替换 Data Frame 中的空值。这些函数如下所示:

isnull(): isnull() 的主要任务是,如果任何行有空值,则返回 true 值。

notnull(): 它是 isnull() 函数的相反,它返回非空值的 true 值。

dropna(): 此方法分析并删除空值的行/列。

fillna(): 它允许用户将 NaN 值替换为其他一些值。

replace(): 这是一个非常丰富的功能,可以替换字符串、正则表达式、series、字典等。

interpolate(): 这是一个非常强大的函数,可以在 DataFrame 或 series 中填充空值。

字符串操作

Pandas 中提供了一组字符串函数来操作字符串数据并忽略缺失/NaN 值。可以使用 .str. 选项执行不同的字符串操作。这些功能如下所示:

lower(): 它将 series 或索引的任何字符串转换为小写字母。

upper(): 它将 series 或索引的任何字符串转换为大写字母。

strip(): 此函数有助于从 Series/索引中的每个字符串中删除空格,包括新行。

split(' '): 这是一个函数,用于使用给定模式拆分字符串。

cat(sep=' '): 它使用给定的分隔符连接系列/索引元素。

contains(pattern): 如果子字符串存在于该元素中,则返回 True,否则返回 False。

replace(a,b): 它将值 a 替换为值 b。

repeat(value): 它将每个元素重复指定的次数。

count(pattern): 它返回模式在每个元素中出现的次数。

startswith(pattern): 如果 series 中的所有元素都以模式开头,则返回 True。

endswith(pattern): 如果 series 中的所有元素都以模式结尾,则返回 True。

find(pattern): 用于返回模式的首次出现。

findall(pattern): 它返回模式的所有出现的列表。

swapcase: 用于交换大小写 lower/upper。

islower(): 如果 Series/索引的字符串中的所有字符都是小写,则返回 True。否则,返回 False。

isupper(): 如果 Series/索引的字符串中的所有字符都是大写,则返回 True。否则,返回 False。

isnumeric(): 如果 Series/索引的字符串中的所有字符都是数字,则返回 True。否则,返回 False。

计数数值

此操作用于使用“value_counts()”选项来计算总出现次数。

图表

Pandas 使用 matplotlib 库绘制图表。 .plot() 方法允许您绘制数据的图表。

.plot() 函数绘制索引与每一列。

您也可以将参数传递给 plot() 函数以绘制特定的列。


下一个主题数据处理