Pandas DataFrame.drop_duplicates()

2024年8月29日 | 1 分钟阅读

drop_duplicates() 函数执行常见的数据清理任务,处理 DataFrame 中的重复值。此方法有助于从 DataFrame 中删除重复值。

语法

参数

  • subset: 它接受一个列或列标签列表。它仅考虑某些列来识别重复项。默认值None
  • keep: 它用于控制如何考虑重复值。它有三个不同的值,如下所示
    • first: 它删除重复值,除了第一次出现。
    • last: 它删除重复值,除了最后一次出现。
    • False: 它删除所有重复项。
  • inplace: 返回布尔值。默认值为 False。

如果为真,它会删除具有重复值的行。

返回

根据传递的参数,它返回删除了重复行的 DataFrame。

示例

输出

        Name     Age
0     Parker     21
1     Smith      32
2     William    29
3     Parker     21

输出

       Name    Age
0    Parker    21
1    Smith     32
2    William   29

下一个主题DataFrame.groupby()