从实时数据流中查找中位数

2024 年 8 月 28 日 | 阅读 6 分钟

中位数是数据分析和计算机科学中使用的统计指标，它代表排序数据集的中间值。它是衡量集中趋势的重要指标，可提供有关数据集分布和属性的信息。从静态数据集中查找中位数很简单，但当处理实时数据流（新数据不断进入）时，事情会变得更具挑战性。在这篇文章中，我们将研究从流数据流中查找中位数的挑战，并提出一种常见的算法解决方案。

这个概念是将数据流分成两半：一半保存在用于较小值的最大堆中，而另一半存储在用于较大值的最小堆中。通过保持这两个堆，您可以有效地获取与数据集的中位数元素对应的最小值和最大值。

使用堆查找中位数

从流动数据流中计算中位数的一种典型方法是保留两个数据结构：最大堆和最小堆。当添加额外数据点时，这些数据结构对于有效监控中位数至关重要。

最大堆和最小堆

最大堆是一种二叉树，其中父节点大于或等于其子节点。数据集的最大值始终位于最大堆的根部。
最小堆是一种二叉树，其中父节点小于或等于其子节点。数据集的最小值始终位于最小堆的顶部。

这个概念是将数据流分成两半：一半保存在用于较小值的最大堆中，而另一半存储在用于较大值的最小堆中。通过保持这两个堆，您可以有效地获取与数据集的中位数元素对应的最小值和最大值。

Python 实现

import heapq
class RunningMedian:
    def __init__(self):
        self.min_heap = []  
        self.max_heap = []  
    def add_number(self, num):
        if not self.max_heap or num < -self.max_heap[0]:
            heapq.heappush(self.max_heap, -num)  
        else:
            heapq.heappush(self.min_heap, num)
        if len(self.max_heap) > len(self.min_heap) + 1:
            heapq.heappush(self.min_heap, -heapq.heappop(self.max_heap))
        elif len(self.min_heap) > len(self.max_heap):
            heapq.heappush(self.max_heap, -heapq.heappop(self.min_heap))
    def find_median(self):
        if len(self.max_heap) == len(self.min_heap):
            return (-self.max_heap[0] + self.min_heap[0]) / 2
        else:
            return -self.max_heap[0
running_median = RunningMedian()
data_stream = [2, 3, 1, 5, 7, 6]
medians = []
for num in data_stream:
    running_median.add_number(num)
    medians.append(running_median.find_median())
print(medians)  

输出

[2.0, 2.5, 2.0, 2.5, 3.0, 4.0]

使用增强的自平衡二叉搜索树

一种实用且成功的方法是使用增强的自平衡二叉搜索树，例如 AVL 树或红黑树，从持续更新的数据流中查找中位数。这种方法需要管理一个自平衡二叉搜索树，其中每个节点存储额外的数据，即以该节点为根的子树的大小。包含此站点信息对于以流线型和有效的方式获取中位数至关重要。

使用增强的自平衡二叉搜索树需要将额外信息（通常是子树的大小）集成到树节点中。这些自平衡树（例如 AVL 树或红黑树）会自动保持平衡，从而实现快速插入和检索。
增强功能允许实时计算统计量，例如从流动数据流中计算中位数。随着新数据的进入，树会更新以保持平衡，从而以对数时间复杂度找到中位数。
此方法对于需要实时数据处理的应用程序特别有用，例如金融数据跟踪、系统性能监控和医疗保健。增强型自平衡二叉搜索树提高了内存使用率和计算性能，使其成为动态数据集和在线学习场景的优秀工具。

Python 实现

class TreeNode:
    def __init__(self, value):
        self.value = value
        self.left = None
        self.right = None
        self.size = 1  
class AVLTree:
    def __init__(self):
        self.root = None
    def insert(self, root, value):
        if not root:
            return TreeNode(value)
        if value <= root.value:
            root.left = self.insert(root.left, value)
        else:
            root.right = self.insert(root.right, value)
        root.size = 1 + self.get_size(root.left) + self.get_size(root.right)
        balance = self.get_balance(root)
        if balance > 1:
            if value < root.left.value:
                return self.right_rotate(root)
            else:
                root.left = self.left_rotate(root.left)
                return self.right_rotate(root)
        if balance < -1:
            if value > root.right.value:
                return self.left_rotate(root)
            else:
                root.right = self.right_rotate(root.right)
                return self.left_rotate(root)
        return root
    def get_size(self, node):
        return node.size if node else 0
    def get_balance(self, node):
        return self.get_size(node.left) - self.get_size(node.right) if node else 0
    def left_rotate(self, node):
        right_child = node.right
        node.right = right_child.left
        right_child.left = node
        node.size = 1 + self.get_size(node.left) + self.get_size(node.right)
        right_child.size = 1 + self.get_size(right_child.left) + self.get_size(right_child.right)
        return right_child
    def right_rotate(self, node):
        left_child = node.left
        node.left = left_child.right
        left_child.right = node
        node.size = 1 + self.get_size(node.left) + self.get_size(node.right)
        left_child.size = 1 + self.get_size(left_child.left) + self.get_size(left_child.right)
        return left_child
    def insert_value(self, value):
        self.root = self.insert(self.root, value)
    def find_median(self):
        total_size = self.get_size(self.root)
        if total_size % 2 == 0:
            return self.find_kth_element((total_size // 2) + 1) / 2.0 + self.find_kth_element(total_size // 2) / 2.0
        else:
            return float(self.find_kth_element((total_size // 2) + 1))
    def find_kth_element(self, k):
        return self._find_kth_element(self.root, k)
    def _find_kth_element(self, node, k):
        left_size = self.get_size(node.left) if node.left else 0
        if k == left_size + 1:
            return node.value
        elif k <= left_size:
            return self._find_kth_element(node.left, k)
        else:
            return self._find_kth_element(node.right, k - left_size - 1)
avl_tree = AVLTree()
data_stream = [2, 3, 1, 5, 7, 6]
medians = []
for num in data_stream:
    avl_tree.insert_value(num)
    medians.append(avl_tree.find_median())
print(medians)

输出

[2.0, 2.5, 2.0, 2.5, 3.0, 4.0]

使用插入排序

使用插入排序从流动数据流中查找中位数不是最有效的方法，尤其是对于大数据集。在最坏的情况下，插入排序的时间复杂度为 O(n2)，其中 n 是项目数。然而，这是可能的。以下是插入排序如何用于从流数据流中获取中位数的示例

Python 实现

def find_median(data_stream):
    sorted_data = []
    medians = []
    for num in data_stream:
        i = len(sorted_data) - 1
        while i >= 0 and sorted_data[i] > num:
            sorted_data[i + 1] = sorted_data[i]
            i -= 1
        sorted_data[i + 1] = num
        n = len(sorted_data)
        if n % 2 == 0:
            median = (sorted_data[n // 2 - 1] + sorted_data[n // 2]) / 2
        else:
            median = sorted_data[n // 2]
        medians.append(median)
    return medians
data_stream = [2, 3, 1, 5, 7, 6]
medians = find_median(data_stream)
print(medians)

输出

[2.0, 2.5, 2.0, 2.5, 3.0, 4.0]

优点

1. 实时决策

中位数计算提供即时洞察力，使组织能够做出明智的金融、医疗保健和应急响应判断。

2. 对异常值的抵抗力

与受异常值严重影响的均值不同，中位数对极端值更具抵抗力，使其适用于倾斜或异常数据的情况。

3. 内存效率

由于它不需要保留完整数据集，因此用于从数据流中计算中位数的最大堆和最小堆方法是内存高效的。

4. 在线教育

从流动数据流中确定中位数的能力与在线机器学习和自适应系统非常吻合，其中模型不断适应传入数据。

5. 异常检测

识别数据分布中的变化对于异常检测至关重要，中位数可以帮助实时定位此类偏差。

应用

实时分析
- 金融数据分析：查找中位数对于跟踪资产价值、识别趋势和评估金融领域的风险至关重要。
- 交易员和投资者使用股票市场监测来分析市场行为并做出明智的决策。
医疗保健
- 患者监测：实时中位数计算有助于检测生命体征（例如心率、血压）中的异常或重大变化。
网络和系统监控
- 网络流量分析：在信息技术和网络中，测量网络流量的中位数有助于识别异常峰值或趋势。
- 系统性能监控：查找响应时间的中位数对于系统管理员来说可能至关重要，以确保最佳系统性能。
流数据
- 流处理：实时分析解决方案使用中位数计算处理数据流，从而从不断变化的数据中获得快速洞察。
物联网 (IoT)
- 传感器数据分析：物联网应用程序使用来自各种传感器的数据流。实时中位数计算可以指示关键数据或事件。

结论

总而言之，从不断演变的数据流中确定中位数是一个经常遇到的挑战，在不同领域都具有实际用途。采用最大堆和最小堆的策略可以随着新数据点的引入而灵活有效地计算中位数。这种方法在内存效率和计算速度之间取得了最佳平衡，使其特别适用于需要持续数据分析的实时应用程序。无论您从事金融、系统监控或任何其他领域，从不断演变的数据流中确定中位数的能力都是数据科学家和工程师的宝贵资产。

下一主题扁平化链表

从实时数据流中查找中位数

使用堆查找中位数

使用增强的自平衡二叉搜索树

使用插入排序

优点

应用

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

数据结构教程

DS 数组

DS 链表

DS 栈

DS 队列

DS 树

DS 图

DS 搜索

DS 排序

哈希与堆

差异

二叉树

二叉搜索树

AVL 树

单向链表

双向链表

循环链表

循环双向链表

DS 选择题

其他

从实时数据流中查找中位数

使用堆查找中位数

使用增强的自平衡二叉搜索树

使用插入排序

优点

应用

结论

相关帖子

列表数据结构

前序遍历

图算法

二叉树转循环双向链表

梳排序和希尔排序的区别

查找最近的回文数

查找满足方程 N = P^2.Q 的 P 和 Q 的值

掌握用于竞争性编程的括号问题

在二叉搜索树中查找顺时针数组

检查给定数组是否包含相距 k 以内的重复元素

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器