C 语言实现 Levenshtein 距离计算算法的程序

2025年1月7日 | 阅读 4 分钟

在本文中，我们将讨论使用 C 语言实现 Levenshtein 距离计算算法。用于计算两个字符串之间差异的矩阵称为 Levenshtein 距离或编辑距离。它被描述为将一个字符串转换为另一个字符串所需的单个字符修改（替换、插入或删除）的最小数量。需要在 C 语言中实现 Levenshtein 距离算法，并且通常使用动态规划和一个矩阵。

应用 Levenshtein 距离算法的基本思想如下：

动态规划方法
1. 该技术通常利用动态规划，构建一个矩阵来存储每个子问题的最小编辑距离。
2. 要比较的两个字符串的长度决定了矩阵的大小。
3. 矩阵中的每一列的值表示将子串修改到该点所需的最小编辑次数。
初始矩阵配置
1. 矩阵的第一行和第一列的初始化表示将空字符串转换为相应子字符串所需的修改次数。
2. 每个单元格的值是根据相邻单元格的值填充的，这些值表示可以执行的多种编辑操作，例如插入、删除或替换。
计算和矩阵遍历
1. 在遍历矩阵的同时计算每个单元格处的最小编辑距离，同时考虑相邻单元格的值以及相关编辑操作的成本。
2. 每个单元格表示可以执行的多种编辑操作，例如插入、删除或替换，并且是根据相邻单元格的值填充的。
最终结果
1. Levenshtein 距离，表示将一个字符串转换为另一个字符串所需的最小修改次数，位于矩阵的 右下角。

示例

让我们通过一个例子来说明 C 语言中的 Levenshtein 距离计算算法。

#include <stdio.h>
#include <string.h>
int minimum(int a, int b, int c)
{
 if (a <= b && a <= c) 
 {
 return a;
 } 
 else if (b <= a && b <= c)
 {
 return b;
 }
 else
 {
 return c;
 }
}
int levenshteinDistance(char *str_1, char *str_2) 
{
 int len_1 = strlen(str_1);
 int len_2 = strlen(str_2);
 int distance[len_1 + 1][len_2 + 1];
 for (int i = 0; i <= len_1; i++)
 {
 for (int j = 0; j <= len_2; j++)
 {
 if (i == 0)
 {
 distance[i][j] = j;
 }
 else if (j == 0)
 {
 distance[i][j] = i;
 }
 else if (str_1[i - 1] == str_2[j - 1])
 {
 distance[i][j] = distance[i - 1][j - 1];
 } 
 else
 {
 distance[i][j] = 1 + minimum(distance[i][j - 1], distance[i - 1][j], distance[i - 1][j - 1]);
 }
 }
 }
 return distance[len_1][len_2];
}
int main()
{
 char *str_1 = "kitten";
 char *str_2 = "sitting";
 printf("The Levenshtein distance between '%s' and '%s' is: %d\n", str_1, str_2, levenshteinDistance(str_1, str_2));
 return 0;
}

输出

The Levenshtein distance between 'kitten' and 'sitting' is: 3

说明

函数声明和头文件
- 代码中包含两个头文件：一个用于 输入/输出 操作，另一个用于 字符串操作。
- 在代码的开头，声明了 min 函数。其目的是确定三个数字中的最小值。
min 函数
- min 函数接收三个整数 (a, b, c)，并返回其中最小的一个。它稍后应用于 Levenshtein 距离的计算。
Levenshtein 距离函数的工作原理
- Levenshtein 距离函数用于计算两个输入字符串 str_1 和 str_2 之间的 levenshteinDistance。
- 首先，它使用 strlen 获取输入字符串的长度。
- 输入字符串的每个子字符串之间的距离存储在名为 distance 的二维数组中。
- 通过两个嵌套循环迭代子字符串来使用 Levenshtein 距离技术填充 distance 数组。
- 如果其中一个字符串为空，则将距离设置为另一个字符串的长度，这表示所需的插入或删除次数。
- 如果两个字符串在相应位置的字符匹配，则距离设置为前一个子字符串的值，并且不需要进行编辑。
- 如果字母不匹配，则距离为 (1 + 插入、删除或替换操作的距离中的最小值)。
- Levenshtein 距离（在两个输入字符串之间返回）由 distance 数组中的最后一个条目表示。
main 函数
- 在 main 函数中，为 Levenshtein 距离计算提供了两个字符串作为输入：str_1 ("kitten") 和 str_2 ("sitting")。
- 然后，调用 levenshteinDistance 函数并用这些字符串进行调用后，使用 Printf() 函数将结果输出到控制台。
输出
- 它显示了 "kitten" 和 "sitting" 之间的 Levenshtein 距离，即转换一个字符串为另一个字符串所需的最少单字符修改次数。

下一主题C 语言编程测试

← 上一个下一个 →

C 语言实现 Levenshtein 距离计算算法的程序

示例

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

C 语言教程

C 语言控制语句

C 语言函数

C 语言数组

C 语言指针

C 语言动态内存

C 语言字符串

C 语言数学

C 语言结构体和联合体

C 语言文件处理

C 语言预处理器

C 语言命令行

C 语言程序

C 语言面试

选择题

C 语言编程测试

C 语言基础测试

C 语言控制语句测试

C 语言函数测试

C 语言数组测试

C 语言指针测试

C 语言字符串测试

C 语言结构体测试

C 语言预处理器测试

数学

C 语言杂项

C 语言实现 Levenshtein 距离计算算法的程序

示例

相关帖子

C 语言 Struct 和 Enum 的区别

C 语言哨兵控制循环和计数器控制循环的区别

C 语言 Chdir()

C 语言 EOF 和 NULL 的区别

C 语言 Mo 算法

C 语言结构体填充和结构体打包的区别

C 语言中的缓冲区

关于 C 语言的有趣事实

C 语言双指针技术程序

C 语言程序演示线程接口和内存一致性错误

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器