FuzzyWuzzy Python 库

17 Mar 2025 | 6 分钟阅读

在本教程中，我们将学习如何使用 Python 内置的 fuzzyWuzzy 库匹配字符串，并通过各种示例来确定它们有多相似。

引言

Python 提供了一些比较两个字符串的方法。以下是一些主要方法。

使用正则表达式
简单比较
使用 dfflib

但还有一种可以有效用于比较的方法，称为 fuzzywuzzy。此方法在区分指向同一事物但拼写略有不同的两个字符串方面非常有效。有时我们需要一个程序来自动识别错误的拼写。

这是一个查找与给定模式匹配的字符串的过程。它使用 Levenshtein 距离 来计算序列之间的差异。

该库可以帮助映射缺少公共键的数据库，例如按公司名称联接两个表，而这些公司名称在两个表中显示不同。

示例

让我们看下面的例子。

Str1 = "Welcome to Javatpoint"
Str2 = "Welcome to Javatpoint"
Result = Str1 == Str2
print(Result)

输出

True

上面的代码返回 true，因为字符串匹配是完全的（100%），如果我们在 str2 中进行更改怎么办。

Str1 = "Welcome to Javatpoint"
Str2 = "welcome to Javatpoint"
Result = Str1 == Str2
print(Result)

输出

False

上面的代码返回 false，并且字符串在人类看来几乎相同，但对解释器来说不是。但是，我们可以通过将两个字符串都转换为小写来解决此问题。

Str1 = "Welcome to Javatpoint"
Str2 = "welcome to Javatpoint"
Result = Str1.lower() == Str2.lower()
print(Result)

输出

True

但是，如果我们更改字符集，我们会遇到另一个问题。

Str1 = "Welcome to javatpoint."
Str2 = "Welcome to javatpoint"
Result = Str1.lower() == Str2.lower()
print(Result) 

输出

True

为了解决这类问题，我们需要更有效的工具来比较字符串。而 fuzzywuzzy 是计算字符串的最佳工具。

Levenshtein 距离

Levenshtein 距离 用于计算两个单词序列之间的距离。它计算更改给定字符串所需的最小编辑次数。这些编辑可以是插入、删除或替换。

示例 -

import numpy as np

def levenshtein_distance (s1, t1, ratio_calculation = False):

    # Initialize matrix of zeros
    rows = len(s1)+1
    cols = len(t1)+1
    calc_distance = np.zeros((rows,cols),dtype = int)

    # Populate matrix of zeros with the indeces of each character of both strings
    for i in range(1, rows):
        for k in range(1,cols):
            calc_distance[i][0] = i
            calc_distance[0][k] = k

    for col in range(1, cols):
        for row in range(1, rows):
            if s1[row-1] == t1[col-1]:
                cost = 0
                if ratio_calculation == True:
                    cost = 2
                else:
                    cost = 1
            calc_distance[row][col] = min(calc_distance[row-1][col] + 1,      # Cost of deletions
                                 calc_distance[row][col-1] + 1,          # Cost of insertions
                                 calc_distance[row-1][col-1] + cost)     # Cost of substitutions
    if ratio_calculation == True:
        # Computation of the Levenshtein calc_distance Ratio
        Ratio = ((len(s)+len(t)) - calc_distance[row][col]) / (len(s)+len(t))
        return Ratio
    else:
        return "The strings are {} edits away".format(calc_distance[row][col])

我们将在前面的示例中使用上面的函数，当时我们正在尝试比较“Welcome to javatpoint.”和“Welcome to javatpoint”。我们可以看到这两个字符串很可能相同，因为 Levensthtein 的长度很小。

Str1 = "Welcome to Javatpoint"
Str2 = "welcome to Javatpoint"
Distance = levenshtein_distance(Str1,Str2)
print(Distance)
Ratio = levenshtein_distance(Str1,Str2,ratio_calc = True)
print(Ratio)

FuzzyWuzzy 包

这个库的名字有点奇怪和有趣，但它很有用。它有一种独特的方式来比较两个字符串，并返回一个 100 分的匹配分数。要使用此库，我们需要在 Python 环境中安装它。

安装

我们可以使用 pip 命令安装此库。

Collecting fuzzywuzzy
  Downloading fuzzywuzzy-0.18.0-py2.py3-none-any.whl (18 kB)
Installing collected packages: fuzzywuzzy
Successfully installed fuzzywuzzy-0.18.0

现在输入以下命令并按 Enter。

让我们来理解 fuzzuwuzzy 库的以下方法

Fuzz 模块

fuzz 模块用于一次比较两个给定的字符串。它在使用不同方法进行比较后返回 100 分的得分。

Fuzz.ratio()

它是 fuzz 模块最重要的函数之一。它根据给定字符串的匹配程度来比较字符串和评分。让我们理解以下示例。

示例 -

from fuzzywuzzy import fuzz
Str1 = "Welcome to Javatpoint"
Str2 = "welcome to javatpoint"
Ratio = fuzz.ratio(Str1.lower(),Str2.lower())
print(Ratio)

输出

如上代码所示，fuzz.ratio() 方法返回的分数表示字符串之间差异非常小。

Fuzz.partial_ratio()

fuzzywuzzy 库提供了另一个强大的方法 - partial_ratio()。它用于处理复杂的字符串比较，例如子字符串匹配。让我们看下面的例子。

示例 -

#importing the module from the fuzzywuzzy library
from fuzzywuzzy import fuzz

str1 = "Welcome to Javatpoint"
str2 = "tpoint"
Ratio = fuzz.ratio(str1.lower(),str2.lower())
Ratio_partial = fuzz.partial_ratio(str1.lower(),str2.lower())
print(Ratio)
print(Ratio_partial)

输出

44
100

说明

partial_ratio() 方法可以检测子字符串。因此，它会产生 100% 的相似度。它遵循最优部分逻辑，即当短字符串长度为 k，长字符串长度为 m 时，算法会找到最佳匹配的长度为 k 的子字符串。

Fuzz.token_sort_ratio

此方法不能保证获得准确的结果，因为如果我们更改字符串的顺序。它可能不会给出准确的结果。

但是 fuzzywuzzy 模块提供了解决方案。让我们理解下面的例子。

示例 -

str1 = "united states v. nixon"
str2 = "Nixon v. United States"
Ratio = fuzz.ratio(str1.lower(),str2.lower())
Ratio_Partial = fuzz.partial_ratio(str1.lower(),str2.lower())
Ratio_Token = fuzz.token_sort_ratio(str1,str2)
print(Ratio)
print(Ratio_Partial)
print(Ratio_Token)

输出

59
74
100

说明

在上面的代码中，我们使用了 token_sort_ratio() 方法，该方法比 partial_ratio 具有优势。在此方法中，字符串标记按字母顺序排序并连接在一起。但还有另一种情况，例如，如果字符串的长度相差很大。

让我们理解下面的例子。

示例 -

str1 = "The supreme court case of Democratic vs Congress"
str2 = "Congress v. Democratic"
Ratio = fuzz.ratio(str1.lower(),str2.lower())
Partial_Ratio = fuzz.partial_ratio(str1.lower(),str2.lower())
Token_Sort_Ratio = fuzz.token_sort_ratio(str1,str2)
Token_Set_Ratio = fuzz.token_set_ratio(str1,str2)
print(Ratio)
print(Partial_Ratio)
print(Token_Sort_Ratio)
print(Token_Set_Ratio)

输出

在上面的代码中，我们使用了另一种称为 fuzz.token_set_ratio() 的方法，该方法执行集合操作，提取公共标记，然后进行 pairwise 比较。

排序标记的交集始终相同，因为子字符串或较小的字符串包含原始字符串的较大块，或者剩余的标记彼此更接近。

fuzzywuzzy 包提供了 process 模块，该模块允许我们计算具有最高相似度的字符串。让我们理解下面的例子。

示例 -

from fuzzywuzzy import process
strToMatch = "Hello Good Morning"
givenOpt = ["hello","Hello Good","Morning","Good Evenining"]
ratios = process.extract(strToMatch,givenOpt)
print(ratios)
# We can choose the string that has highest matching percentage
high = process.extractOne(strToMatch,givenOpt)
print(high)

输出

[('hello', 90), ('Hello Good', 90), ('Morning', 90), ('Good Evenining', 59)]
('hello', 90)

上面的代码将返回给定字符串列表的最高匹配百分比。

Fuzz.WRatio

process 模块还提供了 WRatio，它比简单的 ratio 提供了更好的结果。它处理大小写和其他一些参数。让我们理解下面的例子。

示例 -

from fuzzywuzzy import process
fuzz.WRatio('good morning', 'Good Morning')
fuzz.WRatio('good morning!!!','good Morning')

输出

结论

在本教程中，我们讨论了如何匹配字符串并确定它们的相似程度。我们通过简单的例子来说明，但它们足以清楚计算机如何处理不匹配的字符串。许多实际应用，如拼写检查、生物信息学匹配、DNA 序列匹配等，都基于模糊逻辑。

下一主题Dask Python

FuzzyWuzzy Python 库

引言

示例

Levenshtein 距离

FuzzyWuzzy 包

安装

Fuzz 模块

Fuzz.ratio()

Fuzz.partial_ratio()

Fuzz.token_sort_ratio

Fuzz.WRatio

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Python 问题

FuzzyWuzzy Python 库

引言

示例

Levenshtein 距离

FuzzyWuzzy 包

安装

Fuzz 模块

Fuzz.ratio()

Fuzz.partial_ratio()

Fuzz.token_sort_ratio

Fuzz.WRatio

结论

相关帖子

Flask 中的多值查询参数

使用 Python 装饰器进行记忆化

更新 Pyspark DataFrame 元数据

Python 线程计时器

Python 中的带括号的上下文管理器

Sklearn 中的 StandardScaler

用于构建 API 的流行 Python 框架

使用 Scikit-Learn 在 Python 中查找欧几里得距离

execute_script driver method - Selenium Python

Python PrimePy 模块

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器