Python中的Dedupe库

2025 年 3 月 7 日 | 阅读 4 分钟

在接下来的教程中，我们将了解 Python 编程语言中 dedupe 库的基础知识。

那么，让我们开始吧。

Python Dedupe 库简介

对于数据去重、实体解析和记录链接，Python 的 `dedupe` 包是一个有效的工具。即使它们可能不是完全匹配，也可以在数据集中找到并移除足够相似以被视为重复的重复记录。在名称、地址或其他字段不一致的情况下，例如在客户记录或产品目录中，这尤其有用。

借助机器学习技术，`dedupe` 会比较记录之间的字段以发现数据中的模式并可能发现重复项。用户提供重复和非重复对的标记示例来训练算法。训练完成后，该库会将此模型应用于其余数据集进行去重。对于手动去重不切实际的大型数据集，它特别有用。

该库还支持模糊匹配，允许在匹配具有细微差别的字段时具有灵活性。

在 Python 中实现 Dedupe 库

在Python中，可以使用 `dedupe` 模块在数据集中查找和消除重复条目，特别是当重复项相似但并非完全相同时。利用它可以有效地处理可能包含错误（如拼写错误或格式不一致）的实际数据，例如客户信息、产品列表或调查回复。

`dedupe` 采用机器学习来检测这些相似性。用户提供一个数据集并定义要比较的字段（例如，姓名、电子邮件、地址）。然后，该库从手动标记的重复和非重复记录示例中学习。训练完成后，该模型可以自动查找其余数据中的重复项。

它支持模糊匹配，这使得它能够基于部分相似性识别近重复项。在处理大型、不干净的数据集（手动去重耗时）时，它特别有用。通过帮助有效清理数据，`dedupe` 提高了数据质量，从而为分析和决策提供了支持。

安装 Python Dedupe 库

在处理 `dedupe` 库之前，我们需要安装所需的模块。为此，我们将使用 PIP 安装程序，并按照下面所示的语法进行操作

语法

为了验证安装是否正确，我们可以创建一个示例文件并导入 dedupe 模块。

文件: sample.py

用于理解 Python 中 Dedupe 库用法的示例程序

现在让我们考虑一个演示 Python 中 `dedupe` 模块用法的示例。

示例

 
import dedupe
import csv

# Sample data: customer records with slight differences
data = [
    {"name": "John Doe", "email": "john.doe@example.com", "phone": "123-456-7890"},
    {"name": "Jon Doe", "email": "jon.doe@example.com", "phone": "123-456-7890"},
    {"name": "Jane Smith", "email": "jane@example.com", "phone": "098-765-4321"},
    {"name": "J Smith", "email": "jane@example.com", "phone": "098-765-4321"},
]

# Convert data into the right format for dedupe
data_dict = {i: row for i, row in enumerate(data)}

# Define the fields dedupe will use for comparison
fields = [
    {"field": "name", "type": "String"},
    {"field": "email", "type": "String"},
    {"field": "phone", "type": "String"}
]

# Initialize the dedupe object
deduper = dedupe.Dedupe(fields)

# Prepare for training
deduper.sample(data_dict, 1500)

# Label some examples as duplicates/non-duplicates for training
# In practice, you would manually label examples
dedupe.consoleLabel(deduper)

# Train the deduper
deduper.train()

# Get the threshold for deduplication
threshold = deduper.threshold(data_dict, recall_weight=1.5)

# Perform deduplication
clustered_dupes = deduper.match(data_dict, threshold)

# Print the duplicate pairs
for cluster in clustered_dupes:
    print(cluster)   

输出

示例的输出将显示被识别为重复的记录对及其相似度得分。以下是它可能的样子示例

 
[(0, 1), (2, 3)]

说明

示例代码演示了如何使用 `dedupe` 库来识别数据集中重复的记录。它首先加载一个具有细微差别的客户记录数据集（例如，姓名中的变体）。这些记录被转换为 `dedupe` 所需的字典格式。

去重过程使用 `name`、`email` 和 `phone` 等字段进行比较。使用这些字段初始化 `Dedupe` 对象，并将样本数据提供给库。然后，用户使用 `dedupe.consoleLabel()` 手动将示例标记为重复或非重复，这有助于训练模型识别数据中的模式。

训练完成后，`threshold()` 函数确定重复检测的灵敏度，而 `match()` 函数根据学习到的模式对被识别为重复的相似记录进行聚类。

最后，输出显示了来自数据集的匹配重复对。此过程通过删除或合并相似的条目来帮助清理混乱的数据。

结论

总之，Python 中的 `dedupe` 库是清理混乱数据集的强大工具，它使用机器学习技术来识别和删除重复的记录。即使记录不完全相同但具有相似属性，它也能有效地工作。凭借其处理大型数据集和支持模糊匹配的能力，`dedupe` 非常适合客户记录管理、产品目录清理和实体解析等任务。它在检测和管理重复项方面的效率提高了数据质量，节省了手动数据清理的时间和精力，并确保了更准确的分析和决策。

下一主题使用 Python Turtle 图形绘制心形

Python中的Dedupe库

Python Dedupe 库简介

在 Python 中实现 Dedupe 库

安装 Python Dedupe 库

用于理解 Python 中 Dedupe 库用法的示例程序

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

其他

Python中的Dedupe库

Python Dedupe 库简介

在 Python 中实现 Dedupe 库

安装 Python Dedupe 库

用于理解 Python 中 Dedupe 库用法的示例程序

结论

相关帖子

Node.js 转 Python

使用Matplotlib在Python中绘制100%堆叠条形图和柱状图

Python中的扑克牌

如何在Python字符串中转义字符

如何获取当前Python脚本的目录

Python中的Kaprekar常数

Python as关键字

Python Altair的3个炫酷功能

Python中的IG交易API

Python中HashMap和Dictionary的区别

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器