线性时间排序

2025年3月17日 | 阅读 10 分钟

引言

排序是计算机科学中的一项基本操作，涉及将元素按特定顺序排列，例如数字顺序或字母顺序。已经开发了各种排序算法，每种算法都有时间和效率指标。线性时间排序是排序算法的一个子集，具有显著的优势：它们可以在线性时间内对给定的一组元素进行排序，运行时随输入大小线性增长。

最著名的线性时间排序算法是计数排序。当输入元素的范围已知且相对较小时，计算排序特别有效。这消除了比较元素的需要，而比较是许多其他排序算法的主要耗时操作。利用输入域知识，计算排序可以实现线性时间复杂度。数字排序首先扫描输入数组以确定每个元素的计数。然后，它使用这些数字来计算有序结果表中元素的正确位置。该算法包括以下步骤：

确定范围，识别输入数组的最小值和最大值。
创建一个大小为范围大小并初始化为零的工作表。
遍历输入数组并递增遇到的每个元素。
通过计算累积总和来修改工作表，以获得每个元素的正确位置。
创建一个与输入数组大小相同的输出数组。
再次移动输入数组，根据工作表将每个元素放置在输出数组的正确位置。
结果表现在包含已排序的元素。

计数排序的主要优点是它实现了 O(n) 的线性时间复杂度，这使其对于大型输入非常有效。然而，它的适用性仅限于事先知道输入元素的选择并且相对较小的情况。

值得注意的是，其他排序算法，如快速排序或归并排序，通常具有 O(n log n) 的时间复杂度，这对于许多实际应用来说被认为是高效的。线性时间排序算法，如计数排序，在输入允许使用线性时间复杂度的特定约束或属性时，提供了替代方案。

历史

线性时间排序算法在计算机科学中有着悠久的历史。线性时间排序的发展可以追溯到 20 世纪中叶，科学家和数学家的贡献是显著的。最早的线性时间排序算法之一是桶排序，由 Harold H. Seward 于 1954 年提出。桶排序将输入元素分成有限数量的桶，然后分别对每个桶进行排序。如果输入元素的分布相对均匀，则该算法具有线性时间复杂度。

1959 年，Kenneth E. Iverson 引入了一种实现线性时间复杂度的基数算法。基数排序根据数字或符号从最低有效位到最高有效位对元素进行排序。它使用稳健的排序算法，如计数排序或桶排序，来排序每个数字位置的元素。基数排序在打孔卡和早期计算机系统时代流行起来。然而，最著名的线性时间排序算法是计数排序，由 Harold H. Seward 和 Peter Elias 于 1954 年提出，后来于 1961 年被 Harold H. "Bobby" Johnson 独立重新发现。计数排序受到了广泛关注。

当输入元素的范围已知且相对较小时，这特别有效。线性时间排序的历史随着其他专用算法的发展而继续。例如，1987 年，Hanan Samet 提出了二叉分布树排序，这是一种用于多维数据的线性时间排序算法。多年来，研究人员一直致力于研究和改进线性排序算法，专注于特定场景和约束。虽然快速排序和归并排序等算法由于在更多场景下的效率而被广泛使用，但当某些情况允许利用线性时间复杂度时，线性时间排序算法提供了有价值的替代方案。总的来说，线性时间排序的历史特点是寻找能够在线性时间内对大型数据集进行排序的有效算法，克服了基于比较的排序算法的局限性。各种研究人员的贡献为开发和理解这些专用排序技术铺平了道路。

线性时间排序的类型

有几种不同的线性时间排序算法。主要有两种类型：基于计数（count-based）的算法和基于基数（radix-based）的算法。以下是最常见的线性时间排序算法，按以下类型分类：

基于计数（Count-Based）的算法

计数排序（Counting-Based Sort）：计数排序是一种非比较排序算法。它计算输入数组中每个特定元素的出现次数，并利用此信息来确定输出数组中每个元素的正确位置。计数排序假定输入元素是整数或可以表示为整数。

基于基数（Radix-Based）的算法

基数排序（Radix Sort）：基数排序是一种非比较排序算法，它根据数字或字符对元素进行排序。它从最低有效位到最高有效位对每个数字或字符进行计数。基数排序假定输入元素是整数或字符串。
桶排序（Bucket Sort）：桶排序是基数排序的一种变体，它根据元素的范围或分布将元素分成固定数量的桶。然后使用不同的排序算法或递归地对每个桶进行排序。
MSD（最高有效位）基数排序（MSD (Most Significant Digit) Radix Sort）：MSD 基数排序是基数排序的一种变体，它根据最高有效位开始对元素进行排序。它根据当前数字的值递归地将元素分成子组，并对每个子组应用 MSD 基数排序，直到所有数字都已排序。
LSD（最低有效位）基数排序（LSD (Least Significant Digit) Radix Sort）：LSD 基数排序是另一种变体，它根据最低有效位开始对元素进行排序。它根据每个数字从右到左递归地对元素进行排序，从而产生已排序的结果。计数排序和基于基数的排序算法都通过利用输入元素的特定属性（例如它们的范围或表示结构（例如数字或字符））来实现线性时间复杂度。但是，它们的适用性可能因输入数据的特性而异。

线性时间排序的优点

线性时间排序算法，例如计数排序，在特定场景下提供了许多优点。

对大型输入高效：线性时间排序算法的时间复杂度为 O(n)，这意味着运行时间随输入大小线性增长。这使得它们对于大型数据集比比较排序算法（如快速排序或归并排序）非常高效，后者通常具有 O(n log n) 的时间复杂度。
无比较操作：线性时间排序算法，如计数排序，不依赖于基本比较操作。相反，它们利用有关输入元素的特定属性或信息，例如它们的范围或分布。当比较成本很高时（例如，对于复杂对象或昂贵的比较操作），此功能使其具有优势。
适用于特定的输入属性：线性时间排序算法通常对输入元素有特定的要求或假设。例如，要计算排序顺序，您需要提前知道输入元素的范围。当满足这些条件时，线性时间排序算法可以提供比通用排序算法显着的性能优势。
稳定排序：许多线性时间排序算法，包括计数排序和基数排序，本质上是稳定的。稳定性意味着具有重复键或值的元素在排序输出中保持相对顺序。在排序具有多个属性的对象或记录时，或者当保留具有相同值的元素的原始顺序至关重要时，这可能至关重要。
易于使用：与更复杂的基于比较的排序算法相比，诸如计数排序之类的线性时间排序算法通常相对容易实现。它们更容易理解和调试，使其适用于需要简单性和清晰性的情况。

线性时间排序的缺点

尽管线性排序算法具有其优点，但它们也存在一些限制和缺点。

受限的输入要求：线性时间排序算法通常对输入元素有特定的要求或假设。例如，要计算排序顺序，您需要提前知道输入元素的范围。这种限制将其适用性限制在满足这些条件的场景。如果范围很大或未知，内存需求可能会变得不切实际或超出可用资源。
额外的空间要求：一些线性时间排序算法，如计数排序，需要额外的空间来存储其他数组或数据结构。所需的空间通常与输入元素的数量成正比。当内存使用是一个问题时，这可能是一个缺点，尤其是在处理大型数据集或内存资源有限的情况下。
缺乏通用性：线性时间排序算法是为特定场景或约束设计的专用算法。它们可能不适用于通用排序任务或不同的输入分布，并且效率不高。快速排序或归并排序等比较排序算法更通用，可以处理更广泛的输入范围。
对小范围或稀疏数据效率低下：计数排序等线性时间排序算法在输入元素的范围较小且分布密集时效率最高。如果范围很大或数据稀疏（即，只有少数不同的值），算法可能会在处理输入范围的空部分或稀疏填充的部分时浪费时间和精力。
仅限于特定数据类型：计数排序等线性时间排序算法主要设计用于对非负整数或键值对象进行排序。它们可能不适用于对其他数据类型（如浮点数、字符串或复杂数据结构）进行排序。使线性时间排序算法能够处理不同数据类型或自定义比较函数可能需要额外的预处理或修改。

在选择排序算法时，仔细考虑输入数据的特定细节和排序问题的要求至关重要。虽然线性排序算法在特定场景下具有优势，但它们并非总是最合适或最高效的选择。

线性时间排序算法的应用

线性时间排序算法效率很高，在各个领域都有许多应用。以下是线性时间排序的一些典型应用：

对小范围整数进行排序：当值的范围较小时，计数排序和基数排序等线性时间排序算法非常适合对整数数组进行排序。这些算法通过对输入数据进行假设来达到线性时间复杂度，从而使它们能够绕过基于比较的排序。
字符串排序：线性时间排序算法也可以应用于高效地对字符串进行排序。通过利用字符串的独特属性，例如它们的长度或字符，像基数排序这样的算法在排序字符串时可以实现线性时间复杂度。
数据库功能：排序是数据库系统的基本功能。线性时间排序算法可以根据特定的列或字段高效地对大型数据集进行排序。这使得查询处理更快，数据库操作性能更好。
创建直方图：直方图对于各种统计和数据分析任务至关重要。计数排序等线性时间排序算法可以通过有效地计算数据集中元素的出现次数来生成直方图。
外部排序：当数据无法完全放入内存时，会使用外部排序技术。像外部基数排序或外部计数排序这样的线性时间排序算法可以高效地对存储在磁盘或其他外部存储设备上的大型数据集进行排序。
事件调度：线性时间排序算法可以根据事件的开始或结束时间对事件进行排序。按升序对事件进行排序可以轻松识别冲突、重叠时段或查找下一个可用时段。
分析日志文件：分析日志文件是系统管理和调试中的常见任务。线性时间排序算法可用于按时间戳对日志进行排序，从而更容易识别模式、异常或查找特定事件。
数据压缩：排序在各种数据压缩技术中起着至关重要的作用。像 Burrows-Wheeler 变换 (BWT) 或 Move-To-Front 变换 (MTF) 这样的算法依赖于线性时间排序来重新排列数据以提高压缩效率。这些只是线性时间排序算法应用中的一些示例。

C++ 中线性时间排序的实现

这是一个实现计数排序（一种线性时间排序算法）的程序示例：

#include <iostream>
#include <vector>

using namespace std;

void countingSort(vector<int>& arr) {
    // Find the maximum element in the array
    int max_val = *max_element(arr.begin(), arr.end());

    // Create a count array to store the count of each element
    vector<int> count(max_val + 1, 0);

    // Count the occurrences of each element
    for (int num : arr) {
        count[num]++;
    }

    // Compute the prefix sum
    for (int i = 1; i < count.size(); i++) {
        count[i] += count[i - 1];
    }

    // Create a sorted output array
    vector<int> output(arr.size());

    // Place the elements in the sorted order
    for (int i = arr.size() - 1; i >= 0; i--) {
        output[count[arr[i]] - 1] = arr[i];
        count[arr[i]]--;
    }

    // Copy the sorted elements back to the original array
    for (int i = 0; i < arr.size(); i++) {
        arr[i] = output[i];
    }
}

int main() {
    vector<int> arr = {4, 2, 2, 8, 3, 3, 1};

    // Sort the array using counting sort
    countingSort(arr);

    // Print the sorted array
    cout << "Sorted array: ";
    for (int num : arr) {
        cout << num << " ";
    }
    cout << endl;

    return 0;
}

示例输出

Sorted array: 1 2 2 3 3 4 8

这表明输入数组已使用计数排序算法按升序排序，结果数组为 [1, 2, 2, 3, 3, 4, 8]。

在此 C++ 程序中，计数排序函数采用对 vector arr 的引用并运行计数排序例程。它查找表的最大值以确定工作表的大小。然后，它计算每个元素的出现次数并计算工作表的累积和。然后，它创建一个结果向量并将元素根据工作表排序。最后，它将排序后的元素复制回原始数组。在 main 函数中，示例数组 {4, 2, 2, 8, 3, 3, 1} 由计数排序算法排序，并以排序后的矩阵形式打印。请注意，该程序使用库来处理向量并通过 max_element 函数查找数组的最大元素。

下一个主题计数排序

我们提供所有技术（如 Java 教程、Android、Java 框架）的教程和面试问题

联系信息

G-13, 2nd Floor, Sec-3, Noida, UP, 201301, India

hr@tpointtech.com

+91-9599086977

关注我们

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

DAA 教程

渐进分析

复发

排序分析

分而治之

排序

下界理论

线性时间排序

哈希

二叉搜索树

红黑树

动态规划

贪婪算法

回溯

最小生成树

最短路径

所有对最短路径

最大流

排序网络

复杂度理论

近似算法

字符串匹配

面试题

其他

线性时间排序

引言

历史

线性时间排序的类型

基于计数（Count-Based）的算法

基于基数（Radix-Based）的算法

线性时间排序的优点

线性时间排序的缺点

线性时间排序算法的应用

C++ 中线性时间排序的实现

相关帖子

基数排序

计数排序

桶排序

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器