Web 内容、Web 结构和 Web 使用挖掘的区别

2024 年 8 月 29 日 | 阅读 12 分钟

Web 挖掘是将数据挖掘技术应用于从 Web 数据中提取知识,包括 Web 文档、文档之间的超链接、网站的使用日志等。Web 挖掘旨在从大型数据集和经典数据挖掘中发现并检索有用且有趣的模式。大数据在 Web 挖掘中充当数据集。Web 数据包括信息、文档、结构和配置文件。Web 挖掘基于两个定义的概念:基于过程和数据驱动。总的来说,Web 挖掘的使用通常涉及几个步骤,如数据收集、选择处理前的数据、知识发现和分析。

如今,互联网已成为我们生活中至关重要的部分,因此帮助从 Web 中提取数据的技术是一个有趣的研究领域。这些技术有助于从 Web 数据中提取知识,其中至少使用结构或使用(Weblog)数据之一进行挖掘过程(是否与其他类型的 Web 数据一起使用)。总的来说,Web 挖掘任务可分为三类

  1. Web 内容挖掘
  2. Web 结构挖掘
  3. Web 使用挖掘

所有这三类都侧重于从 Web 中发现隐藏的、以前未知的、潜在有用的知识的过程。它们中的每一个都侧重于 Web 的不同挖掘对象。为了更好地理解,让我们简要研究这三个类别。

什么是 Web 内容挖掘?

Web 内容挖掘可用于从 Web 页面内容中挖掘有用数据、信息和知识。Web 内容挖掘根据输入的内容扫描和挖掘文本、图像以及 Web 页面组,通过在搜索引擎中显示列表来完成。

它也与数据挖掘完全不同,因为 Web 数据主要是半结构化或非结构化的,而数据挖掘主要处理结构化数据。Web 内容挖掘也与文本挖掘不同,因为 Web 的半结构化性质,而文本挖掘侧重于非结构化文本。因此,Web 内容挖掘需要数据挖掘和文本挖掘技术的创造性应用及其自身独特的方法。

在过去几年中,Web 内容挖掘领域的活动得到了迅速扩展。这并不奇怪,因为 Web 内容呈指数级增长,并且此类挖掘具有重大的经济效益。然而,由于 Web 数据的异构性和缺乏结构,自动发现目标或意外的知识信息仍然存在许多具有挑战性的研究问题。Web 内容挖掘可分为两种方法:

1. 基于代理的方法

这种方法涉及智能系统。它旨在改进信息查找和过滤。它通常依赖于能够识别相关网站的自主代理。它可以分为以下三类:

  • 智能搜索代理: 这些代理使用领域特征和用户配置文件搜索相关信息,以组织和解释发现的信息。
  • 信息过滤或分类: 这些代理使用信息检索技术和开放超文本 Web 文档的特征来自动检索、过滤和分类它们。
  • 个性化 Web 代理: 这些代理学习用户偏好,并根据具有相似兴趣的其他用户的偏好来发现 Web 信息。

2. 基于数据的方法

基于数据的方法用于将互联网上的半结构化数据组织成结构化数据。它旨在将 Web 数据建模为更结构化的形式,以便应用标准数据库查询机制和数据挖掘应用程序进行分析。

Web 内容挖掘的挑战

Web 内容挖掘也面临以下问题或挑战及其解决方案:

  • 数据提取: 从 Web 页面提取结构化数据,例如产品和搜索结果。提取此类数据允许提供服务。机器学习和自动提取是解决此问题的两种主要技术。
  • Web 信息集成和模式匹配: 尽管 Web 包含大量数据,但每个网站(甚至每个页面)都以不同的方式表示相似的信息。识别或匹配语义上相似的数据是一个具有许多实际应用的重要问题。
  • 在线来源的意见提取: 有许多在线意见来源,例如产品评论、论坛、博客和聊天室。挖掘意见对于营销情报和产品基准测试非常重要。
  • 知识综合: 概念层次结构或本体在许多应用程序中很有用。但是,手动生成它们非常耗时。主要应用是综合和组织 Web 上的信息片段,为用户提供关于主题域的连贯图景。将介绍一些探索 Web 信息冗余的现有方法。
  • Web 页面分段和噪声检测: 在许多 Web 应用中,人们只想要 Web 页面的主要内容,而不需要广告、导航链接、版权声明。自动分段 Web 页面以提取页面的主要内容是一个有趣的问题。

什么是 Web 结构挖掘?

Web 结构挖掘的挑战在于处理 Web 本身内部超链接的结构。链接分析是一个古老的研究领域。然而,随着对 Web 挖掘兴趣的增加,结构分析的研究也随之增加。这些努力促成了一个新兴的研究领域,称为链接挖掘,它位于链接分析、超文本、Web 挖掘、关系学习、归纳逻辑编程和图挖掘的工作交汇处。

Web 结构挖掘使用图论来分析网站的节点和连接结构。根据 Web 结构数据的类型,Web 结构挖掘可分为两种

  • 从 Web 中的超链接提取模式: 超链接是将 Web 页面连接到不同位置的结构组件。
  • 挖掘文档结构: 分析页面结构的树状结构以描述 HTML 或 XML 标签的使用。

Web 包含各种几乎没有统一结构的物体,作者风格和内容差异比传统文本文档集合大得多。WWW 中的对象是 Web 页面,链接是入站、出站和共引(同一页面链接到的两个页面)。属性包括 HTML 标签、单词出现和锚文本。Web 结构挖掘包括以下术语:

  • Web 图:表示 Web 的有向图。
  • 节点:图中的 Web 页面。
  • 边:超链接。
  • 入度:指向特定节点的链接数。
  • 出度:从特定节点生成的链接数。

Web 结构挖掘的一个技术示例是 Google 用于对搜索结果进行排名的PageRank算法。页面的排名取决于指向目标节点的链接的数量和质量。

链接挖掘已在一些传统数据挖掘任务中引起了一些反响。下面我们总结一些可能适用于 Web 结构挖掘的链接挖掘任务:

  1. 基于链接的分类:经典数据挖掘任务在链接域上的最新升级。该任务是根据页面上的单词、页面之间的链接、锚文本、HTML 标签以及 Web 页面上找到的其他可能属性来预测网页的类别。
  2. 基于链接的聚类分析:数据被分割成组,相似的对象被分组在一起,不相似的对象被分组到不同的组中。与前一项任务不同,基于链接的聚类分析是无监督的,可用于从数据中发现隐藏模式。
  3. 链接类型:有多种任务涉及预测链接的存在,例如预测两个实体之间的链接类型或预测链接的目的。
  4. 链接强度:链接可以与权重相关联。
  5. 链接基数:主要任务是预测对象之间的链接数量。页面分类用于
    • 查找相关页面。
    • 查找重复的网站并找出它们之间的相似性。

什么是 Web 使用挖掘?

Web 使用挖掘侧重于可以预测用户与 WWW 交互时行为的技术。Web 使用挖掘,从 Web 数据中发现用户导航模式,试图从用户在浏览 Web 时产生的交互中派生的二次数据中发现有用信息。Web 使用挖掘从 Weblog 记录中收集数据,以发现用户访问 Web 页面的模式。有几个可用的研究项目和商业工具分析这些模式以达到不同的目的。获得的洞察知识可用于个性化、系统改进、站点修改、商业智能和使用特征描述。

许多用户访问 Web 站点留下的唯一信息是他们访问过的页面路径。大多数 Web 信息检索工具仅使用文本信息,而忽略了可能非常有价值的链接信息。总的来说,在 Web 挖掘领域发现了四种主要的数据挖掘技术,用于发现用户导航模式:

1. 关联规则挖掘

关联规则是数据挖掘方法中最基本的一种,在 Web 使用挖掘中比其他方法使用得更多。此方法使网站能够更有效地组织内容,或为有效的交叉销售产品提供建议。

这些规则是形如 X => Y 的陈述,其中 (X) 和 (Y) 是一系列事务中可用项目的集合。X => Y 规则表示包含 X 中的项的事务也可能包含 Y 中的项。Web 使用挖掘中的关联规则用于查找用户会话中经常相邻出现的页面之间的关系。

2. 顺序模式

顺序模式用于发现大量顺序数据中的子序列。在 Web 使用挖掘中,顺序模式用于查找在会议中经常出现的用户导航模式。顺序模式似乎与关联规则相似。但顺序模式包含时间,这意味着在顺序模式中定义了事件发生的顺序。用于提取关联规则的算法也可用于生成顺序模式。有两种算法用于顺序模式挖掘。

  • 第一类算法基于关联规则挖掘。许多顺序模式挖掘的通用算法都已针对挖掘关联规则进行了修改。例如,GSP 和 AprioriAll 是 Apriori 算法的两个开发版本,用于提取关联规则。但一些研究人员认为,关联规则挖掘算法在长顺序模式挖掘方面性能不足。
  • 第二类顺序模式挖掘算法已被引入,其中使用树结构和马尔可夫链来表示调查模式。例如,在称为 WAP-mine 的算法之一中,使用称为 WAP-tree 的树结构来探索 Web 的访问模式。评估结果表明,其性能高于 GSP 等算法。

3. 聚类

聚类技术用于诊断高容量数据中的相似项目组。这是基于测量不同项目之间相似度量的距离函数来完成的。Web 使用挖掘中的聚类用于对相似的会议进行分组。这种搜索中重要的是用户和个体组之间的对比。在此领域中可以发现两种有趣的聚类:用户聚类和页面聚类。

用户记录的聚类通常用于分析 Web 挖掘和 Web 分析任务。从聚类中获得的更多知识用于在电子商务中划分市场。使用不同的方法和技术进行聚类,包括

  • 使用相似性图和浏览页面所花费的时间来估计会议的相似性。
  • 使用遗传算法和用户反馈。
  • 聚类矩阵。
  • K-means 算法,这是最经典的聚类方法。

重复模式首先使用其他聚类方法中的关联规则从用户会话中提取。然后,这些模式用于构建一个图,其中节点是访问过的页面。图的边连接两个或多个页面。如果页面存在于提取的模式中,则会在显示节点之间关系的边上分配权重。然后,为了聚类,递归地分割此图以检测用户行为组。

4. 分类挖掘

发现分类规则允许开发属于特定组的项目的配置文件,这些项目根据其共同属性进行分类。此配置文件可以对添加到数据库的新数据项进行分类。在 Web 挖掘中,分类技术允许根据有关客户端的人口统计信息或其导航模式来开发访问特定服务器文件的客户端的配置文件。

优点

Web 使用挖掘具有许多优点,使其对企业(包括政府机构)具有吸引力。

  • 这项技术使电子商务能够进行个性化营销,从而提高了贸易量。政府机构正在使用这项技术来识别威胁并打击恐怖主义。
  • 公司可以通过更好地了解客户需求并更快地响应客户需求来建立更好的客户关系。它们可以通过基于创建的配置文件进行目标定价来提高盈利能力。它们甚至可以找到可能转向竞争对手的客户。公司将尝试通过向特定客户提供促销优惠来留住客户,从而降低失去客户的风险。
  • Web 使用挖掘的更多好处,特别是个性化,在概率潜在语义分析模型等特定框架中得到了概述,该模型为用户行为和访问模式提供了附加功能。这是因为该过程通过协作推荐为用户提供更相关的内容。
  • Web 使用挖掘还具有一些独特的元素,显示了该技术的优势。其中包括在挖掘阶段解释、分析和推理使用模式时应用语义知识的方式。

缺点

Web 使用挖掘本身不会造成问题,但当用于个人性质的数据时,这项技术可能会引起担忧。

  • 涉及 Web 使用挖掘中最受批评的道德问题是侵犯隐私。当在不知情或未经同意的情况下获取、使用或传播有关个人的信息时,就被认为失去了隐私。获取的数据将被分析、匿名化,然后聚类以形成匿名配置文件。
  • 这些应用程序通过根据鼠标点击而不是识别信息来判断用户,从而使用户非个体化。去个体化,一般来说,可以定义为一种倾向于根据群体特征而不是个人特征和优点来判断和对待人们。
  • 出于特定目的收集数据的公司可能会将数据用于完全不同的目的,从而侵犯用户的利益。

Web 使用挖掘的应用

Web 使用挖掘的主要目标是收集有关用户导航模式的数据。这些信息可以从用户角度改善网站。此挖掘有三个主要应用:

1. Web 内容的个性化

Web 使用挖掘技术可用于 Web 用户的个性化。例如,可以通过将其当前浏览模式与从日志文件中提取的模式进行比较,立即预测用户行为。在此领域具有实际应用的推荐系统会建议指向用户最喜欢的页面的链接。一些网站还根据特定用户的预测兴趣来组织其产品目录并进行展示。

2. 预检索

Web 使用挖掘的结果可用于提高 Web 服务器和 Web 应用程序的性能。Web 使用挖掘可用于检索和缓存策略,从而减少 Web 服务器的响应时间。

3. 改进网站设计

可用性是设计和实施网站的最重要问题之一。Web 使用挖掘的结果有助于适当设计网站。自适应网站是此类挖掘的应用。在这些网站中,网站内容和结构会根据从用户行为派生的数据进行动态重组。

Web 内容、Web 结构和 Web 使用挖掘的区别

以下是 Web 内容、Web 结构和 Web 使用挖掘之间的区别:

条款Web 内容Web 结构Web 使用
IR 视图DB 视图
数据视图
  • 非结构化
  • 结构化
  • 半结构化
  • 网站作为数据库
链接结构交互性
主要数据
  • 文本文档
  • 超文本文档

超文本文档

链接结构
  • 服务器日志
  • 浏览器日志
方法
  • 机器学习
  • 统计(包括 NLP)
  • 专有算法
  • 关联规则
专有算法
  • 机器学习
  • 统计
  • 关联规则
表示
  • 词袋、n-gram 术语
  • 短语、概念或本体
  • 关系
  • 带标签的有向图
  • 关系
Graph
  • 关系表
  • Graph
应用类别
  • 分类
  • 聚类
  • 查找提取规则
  • 在文本中查找模式
  • 查找频繁子结构
  • 网站模式发现
  • 分类
  • 聚类
  • 站点构建
  • 适应和管理