C++ Manber 算法

2025年5月10日 | 阅读 6 分钟

在本文中，我们将讨论并解释 Manber 算法的 C++ 实现。

引言

Manber 算法是一种字符串匹配算法，用于在文本中查找模式的所有出现。该算法以 Udi Manber 的名字命名，他于 1989 年发明了该算法。它是此类任务中最快的算法之一，具有 O(n+m) 的复杂度，可用于生物信息学或其他大规模数据处理系统。

问题陈述

Manber 算法旨在解决在较大的文本字符串 T 中查找给定模式字符串 P 的每一次出现的问题。这个问题在许多领域都很重要，例如搜索引擎、数据处理系统、文本编辑工具和生物信息学。

传统的暴力法通过将文本的每个子字符串与模式进行比较来解决，其时间复杂度为 O(n*m)，其中 n 是 T 的长度，m 是 P 的长度[4]。但是，当处理长文本或需要同时搜索多个模式时，此方法效率低下。

另一方面，Manber 算法的时间复杂度为 O(n+m)，其中 n 是文本的长度，m 是模式本身的长度。这使其更适合需要快速字符串匹配的应用领域。

示例

让我们举一个例子来说明 Manber 算法在 C++ 中的应用。

#include <iostream>
#include <vector>
#include <string>
#include <algorithm>

using namespace std;

// Define a structure to represent a suffix
struct Suffix {
    int index; // Store the index of the suffix
    string suffix; // Store the suffix string itself
};

// Comparator function for sorting suffixes
bool compareSuffixes(const Suffix &a, const Suffix &b) {
    return a.suffix < b.suffix;
}

// Manber's Algorithm for finding pattern occurrences in text
void manberAlgorithm(const string &pattern, const string &text) {
    int n = text.length();
    int m = pattern.length();

    // Create a vector to store suffixes along with their indices
    vector<Suffix> suffixes(n);

    // Populate the suffix vector with suffixes of the text
    for (int i = 0; i < n; ++i) {
        suffixes[i].index = i;
        suffixes[i].suffix = text.substr(i);
    }

    // Sort the suffixes lexicographically
    sort(suffixes.begin(), suffixes.end(), compareSuffixes);

    // Iterate through the sorted suffixes to find matches
    for (int i = 0; i < n; ++i) {
        // Check if the current suffix matches the pattern
        if (suffixes[i].suffix.substr(0, m) == pattern) {
            cout << "Pattern found at index " << suffixes[i].index << "\n";
        }
    }
}

int main() {
    string text = "exampletextforpatternmatching";
    string pattern = "pattern";

    cout << "Text: " << text << "\n";
    cout << "Pattern: " << pattern << "\n\n";

    manberAlgorithm(pattern, text);

    return 0;
}

输出

Text: exampletextforpatternmatching
Pattern: pattern

Pattern found at index 14

说明

初始步骤
- 该算法接收两个字符串作为输入，一个用于搜索，另一个用于被搜索。
- 这里，N 定义为等于文本和模式（m）的长度。
生成后缀
- 对于文本中的每个位置 i，该算法生成从该位置开始的后缀，并将其及其索引存储在某种由结构组成的数组或向量结构中。
- 例如，如果 'text' 是 "example" 且 i==2，则索引 2 处的后缀是 "ample"。
排序后缀
- 创建所有这些后缀后，算法根据其后缀字符串按字典顺序对它们进行排序。 Manber 算法通过此排序确保了优化性能。
模式匹配
- 在排序过程中，当遍历每个排序后的后缀时，检查每个可能后缀的前 m 个字符是否与模式匹配。
- 如果它们不匹配任何其他内容，而只是匹配另一个字符字符串，则应报告原始文本匹配。

时间复杂度

从文本生成后缀需要 O(n) 时间，其中 n 是文本的长度。
使用 QuickSort 或 MergeSort 等完美的排序算法对后缀进行排序需要 O(nlogn) 时间。
模式与排序的后缀子集进行比较是模式匹配阶段的一部分。在此实例中，如果文本有 k 个模式的出现，此步骤将花费 O(k⋅m) 时间，其中 m 代表模式长度。
因此，Manber 算法的总时间复杂度可表示为 O(nlogn+k⋅m)。

空间复杂度

该算法使用额外的内存来存储索引和后缀。这里，空间复杂度为 O(n)，其中 n 是输入字符串的大小。
算法使用的其他变量，如迭代器和临时字符串，需要固定的空间。
因此，总空间复杂度仍为 O(n)。

Manber 算法的优点

Manber 算法的几个优点如下：

线性时间复杂度：在实际场景中，Manber 算法可以实现线性时间复杂度，尤其是在模式出现次数相对于文本大小较少时。这种效率对于快速处理大型文本至关重要。
高效预处理：该算法通过对文本后缀进行排序进行预处理，这可以使用高效的排序算法在 O(nlogn) 时间内完成。一旦我们对这些后缀进行了排序，模式匹配阶段就会更快。
适用于各种模式：Manber 算法可以进行修改，以有效地处理多个模式搜索。我们不必多次重新计算整个文本，而是对其进行一次预处理，然后使用排序的后缀执行多个模式搜索。
内存效率：Manber 算法的空间复杂度为 O(n)，其中 n 表示文本的长度。
多功能：Manber 算法足够通用，可以用于不同类型的字符串匹配，例如精确匹配或在其他更复杂的模式中搜索子字符串。
可优化：虽然 Manber 算法的基本版本提供了高效的字符串匹配能力，但在某些情况下，如跳过或提前停止，可以通过应用其他技术来优化其性能。
在生物信息学中的应用：在生物信息学中，Manber 算法在处理 DNA 序列比较时得到了广泛应用，因为快速字符串匹配对于分析大型遗传数据集至关重要。
实现清晰：该算法的逻辑相对简单，可以使用标准的编程结构和数据结构来实现，使其对开发人员和研究人员都很容易理解。

Manber 算法的缺点

Manber 算法的几个缺点如下：

内存使用：Manber 算法的平均空间复杂度为 O(n)，这意味着它会保存大量信息，尤其是在处理长文本时。这对于内存容量小的设备来说并不理想。
最坏情况下的时间复杂度：当模式出现次数与文本大小成线性关系时，Manber 算法可能需要长达 O(n2) 的时间。为了达到这一点，可能需要将每个后缀与模式进行比较。
不适用于稀疏模式：该算法可能不最适合在文本中稀疏分布的模式。在这种情况下，所有的后缀排序和处理开销可能不值得。
仅限于精确匹配：Manber 算法的基本版本只能执行精确匹配搜索，其中文本的子字符串必须完全匹配模式。对于近似匹配或模糊匹配等更复杂的类型，需要进行额外的修改。
对模式和文本结构敏感：算法的结果可能会因文本结构和模式的不同而异。某些文本特征或模式可能导致低效的排序和匹配过程或增加开销。
预处理开销：这与预处理的初始步骤有关，特别是对于大型文本，它会对后缀进行排序。虽然这种开销通常会被模式匹配过程中获得的效率所弥补，但仍应考虑，尤其是在实时或性能关键的应用中。
处理更新的复杂性：当需要频繁更新动态文本或模式时，保持排序后缀的最新性会成为一个问题。如果我们谈论的是文本索引或实时更新很重要的应用程序，这一点变得更加重要。
优化依赖性：为了获得 Manber 算法的最佳性能，通常需要额外的优化，例如使用后缀数组等专用数据结构或实施高效的比较策略。然而，这些优化可能会使算法的实现和维护变得复杂。

结论

总之，Manber 算法是最重要的字符串匹配算法之一，它可以找到模式在给定文本中的所有出现。

下一话题Alexander-bogomolnys-unordered-permutation-algorithm-in-cpp

C++ Manber 算法

引言

问题陈述

示例

说明

时间复杂度

空间复杂度

Manber 算法的优点

Manber 算法的缺点

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

C++ 教程

C++ 控制语句

C++ 函数

C++ 数组

C++ 类和对象

C++ 构造函数

C++ 继承

C++ 多态

C++ 抽象

C++ 命名空间

C++ 模板

C++ 字符串

C++ 指针

信号处理

C++ 异常

C++ 文件与流

C++ STL 教程

面试题

选择题

C++ 程序

C++ STL Stack

C++ STL Bitset

C++ STL Deque

C++ STL List

C++ STL Map

C++ STL Math

C++ STL priority_queue

C++ STL Queue

C++ STL Multiset

C++ STL Multimap

C++ STL Set

C++ STD Strings

C++ STL Vector

C++ 操纵符

C++ STL Algorithms

C++ Algorithm

C++ Iterators

C++ 杂项

C++ Manber 算法

引言

问题陈述

示例

说明

时间复杂度

空间复杂度

Manber 算法的优点

Manber 算法的缺点

结论

相关帖子

C++ 类中的辅助函数

C++ 中的莫茨金数

C++ 中查找函数的独占时间

如何在 C++ 中编写自己的 STL 容器

C++ 中的亏数

C++ 编程和 STL 事实

C++ 中的分配饼干

C++ 中的员工空闲时间问题

C++ 中检查两个三角形全等的程序

C++ 零法则

订阅 Tpoint Tech