无处不在的隐形数据挖掘

2025年3月17日 | 阅读 8 分钟

无处不在的数据挖掘 (UDM) 是在移动、嵌入式和无处不在的设备上分析数据的过程。它代表了下一代数据挖掘系统,将支持移动用户智能且时间关键型的数据需求,并随时随地进行数据挖掘。UDM 框架的核心重点是在计算资源有限且网络特性多变的移动环境中执行计算密集型挖掘过程。

随着智能手机的广泛使用、计算能力的不断提高以及无线网络的扩展,出现了普遍计算的趋势,这种趋势使用户能够通过手持设备无缝访问数据和信息。普遍计算环境催生了一类新的应用,称为无处不在的数据挖掘 (UDM),在其中移动用户可以执行智能分析和数据观察。

智能手机不断提高的计算能力为在数据持续流式传输到设备并且存在需要随时随地分析的暂时性限制的应用和场景中进行智能数据分析提供了机会。UDM 是从分布式和异构源通过智能手机或在传感器网络中挖掘数据的过程,被认为是普遍计算领域的下一个自然发展。典型的应用场景包括以下内容。

  • 在旅行途中监控股票组合的实时股票市场信息。
  • 一位旅行的销售代表正在进行客户画像。
  • 持续监控和分析接收到的状态数据,以进行入侵检测或实验室分析。
  • 分析来自移动车辆传感器的数据,通过观察和分析状态数据来尽早发现,以防止致命事故。
  • 对传感器网络中生成的数据进行初步挖掘。
  • 基于位置的对天文和地球物理数据进行分析。

普遍计算 (ubicomp) 是当代信息技术的一个新兴领域。普遍数据挖掘不等同于在资源受限的设备上执行传统数据挖掘。然而,它解决了需要对时间关键型和移动环境中的数据进行分析的应用的独特需求。

自 20 世纪 80 年代末由 Xerox PARC 的 **Mark Weiser** 创立以来,该领域已从一个具有远见的阶段深刻发展成为一个公认的研究学科。该领域涵盖由各种异构组件组成的系统(环境),特别是电子设备,这些设备包围着人们,并且其数量远比以前多。ubicomp 系统设计者追求实用性。它们也与使用它们的人更好地融合。

它们确保技术必须适应公众的需求,而不是反过来。因此,其实用性可以是,例如:一个全自动化的生活空间(智能家居项目)或仅仅是不打扰人(微软的通知平台)。此外,ubicomp 系统在不久的将来很有可能支持老年人和残疾人士。为了实现这些目标,必须让用户看不到计算系统的某些组件,并且可能将它们集成到自然环境中,如传感器、摄像头、远程服务器。所有这些组件都在后台舒适地工作。这就是为什么 ubicomp 经常被称为“安静技术”。

普遍技术架构

普遍数据挖掘涉及数据收集和存储、数据处理以及分析结果的分发。为了实现这一点,我们使用了构成普遍系统架构的六个组件。

序号组成部分函数
1设备用于存储和处理数据的组件。例如,个人电脑、超级计算机。
2沟通设备之间通信的模式。例如,互联网、通过集中式系统。
3用户将与系统交互的用户。它可以是单个用户,也可以是多个用户。
4控制管理上述所有部分的组件。它可以由单个管理员控制,也可以由多个管理员控制。
5数据系统存储和处理的数据类型。它还对其动态性和组织性有所暗示。数据可以有以下类型。
  • 静态数据
  • 动态数据
6基础设施系统用于数据发现的基础设施。例如,Web、数据库。

普遍数据挖掘的应用

以下是普遍数据挖掘的一些应用,例如:

Ubiquitous and Invisible Data Mining

1. 交通安全:可以使用传感器检测异常交通,并将数据存储和分析在系统中。然后可以使用传感器实时检测交通事故。从而监控交通和道路安全。

2. 医疗保健:可以使用传感器为老年人和需要持续医疗关注的人创建智能家居。传感器可用于通知即时医疗需求并收集数据。收集到的数据可以帮助他们及时获得医疗救助。

3. 危机和灾害管理:收集、存储和分析以往的危机和灾害数据。在危机时期,传感器可以检测到危机,并将数据发送给控制器。在灾难发生前预测结果。从而有助于危机管理。

4. 购物篮分析:这种建模技术基于假设。假设是,如果你购买某些产品,那么你很可能也会购买不属于你通常购买的那个类别的产品。零售商可以利用这种技术来了解顾客的购买习惯。零售商可以利用这些信息来改变他们的商店布局,让购物更轻松、更省时。

5. 客户关系管理 (CRM):CRM 涉及获取和保留客户、提高忠诚度以及采用以客户为中心的策略。每个企业都需要客户数据来进行分析,并利用分析结果与客户建立持久的关系。数据挖掘可以帮助他们做到这一点。

6. 金融和银行:自数字化以来,银行业务产生了海量数据。银行家可以利用数据挖掘技术,通过发现市场成本和商业信息中的相关性和趋势来解决银行业务和金融问题。银行和金融领域的管理者可以利用这些信息来获取、保留和维护客户。如果没有数据挖掘,这项工作将非常困难,因为他们处理的数据量非常庞大。

7. 欺诈检测:欺诈活动每年给企业造成数十亿美元的损失。每个理想的欺诈检测系统都需要在所有情况下保护用户数据。通常用于检测欺诈的方法非常复杂且耗时。数据挖掘提供了一个简单的替代方案。该方法被监督用于收集数据,然后将这些数据分类为欺诈性数据或非欺诈性数据。这些数据用于训练一个模型,该模型将每个文档识别为欺诈性或非欺诈性。

8. 模式监控:作为基本的数据挖掘技术之一,它通常包括跟踪数据模式以得出业务结论。它可以是任何事情,从识别销售额的飙升或为组织发掘新的客户群体。

9. 制造工程:制造公司在很大程度上依赖于其可获得的数据或信息。数据挖掘可以帮助这些公司识别对人脑来说过于复杂的过程中的模式。他们可以识别不同系统级工程元素之间的关系,包括客户数据需求、架构和产品组合。数据挖掘还可以证明有助于预测产品开发的总体时间、过程成本以及公司对最终产品的期望。

10. 商业交易:每个商业行业都被永远铭记。此类交易通常与时间相关,可以是企业间的交易或企业内的运营。在高度竞争的世界中,企业为在合理的时间范围内有效及时地使用数据来做出竞争性决策,是他们生存下去的最重要问题。数据挖掘有助于分析这些商业交易并确定营销方法和决策。例如:

  • 直邮目标定位
  • 股票交易
  • 客户细分
  • 客户流失预测(客户流失预测是商业中最受欢迎的大数据用例之一)

11. 科学分析:科学模拟每天都会产生大量数据。这包括来自核实验室的数据、关于人类心理学的数据等。数据挖掘技术能够分析这些数据。现在,我们能够比分析已积累的旧数据更快地捕获和存储更多新数据。科学分析示例:

  • 生物信息学中的序列分析
  • 天文物体分类
  • 医疗决策支持。

隐形数据挖掘

数据挖掘存在于我们生活的各个主要方面。这需要有效的数据挖掘,而不会通过数据提取向外部泄露私人信息。隐形数据是数据的“人性化”方面。它不容易理解,不容易理解,定义不明确,并且是主观的。我们认为数据没有情感、信仰体系、文化、偏见或偏见。但是,除非我们人类能够解释和分析数据以做出决策,否则数据就毫无用处。

但与数据不同,人类充满情感、文化限制、偏见和偏见。在做出有影响力的决策和政策时,这种人性化方面有时比可见的事实更重要,这可能会让许多读者感到惊讶。

越来越多的系统应该内置数据挖掘功能,以便人们只需单击鼠标即可执行数据挖掘或使用数据挖掘结果,而无需了解任何数据挖掘算法。智能搜索引擎和基于 Internet 的商店通过将数据挖掘集成到其组件中来执行隐形数据挖掘,以提高功能和性能。

例如,在在线购买商品时,用户可能不知道商店正在收集有关其客户购买模式的数据,这些数据可能用于推荐其他未来购买的商品。

隐形数据的挑战

隐形数据包含所有数据科学家和政策制定者都应了解的关键组成部分。通常,隐形数据要么被忽略,要么被边缘化,要么被误解。我确定了隐形数据的四个挑战性领域,例如:

  1. 人类进化局限性:我们的偏见、谬误、错觉、信念等。
  2. 原始数据环境:复杂问题、癌症研究、气候变化。
  3. 数据幻象:黑天鹅、统计异常、数据技巧等。
  4. 技术进步:自由意志、意识、数据所有权。

隐形数据挖掘的应用

以下是隐形数据挖掘的一些应用,例如:

  • 搜索引擎
  • 智能数据库系统
  • 电子邮件管理器