数据挖掘中的聚类

17 Mar 2025 | 5 分钟阅读
Social Media Mining

社交媒体是信息的重要来源,也是沟通的绝佳平台。企业和个人可以充分利用它,而不仅仅是在平台上分享照片和视频。该平台赋予用户自由地轻松地与目标群体进行精彩的连接。无论是个人还是成熟的企业,都在面对激烈的社交媒体行业竞争的挑战。但通过社交媒体平台,用户可以营销或发展自己的品牌或内容。

社交媒体挖掘包括社交媒体平台、社交网络分析和数据挖掘,为学习者、专业人士、科学家和项目经理提供一个方便、一致的平台,以理解社交媒体挖掘的基本原理和潜力。它提出了社交媒体数据带来的各种问题,并介绍了数据挖掘和网络分析的基本概念、新兴问题和有效算法。它包含了不同难度的内容,以增强知识并帮助在不同的社交媒体挖掘场景中应用想法、原则和技术。

根据“全球数字报告”,2019年全球社交媒体平台的活跃用户总数为24.1亿,同比增长9%。随着互联网上社交媒体平台的普遍使用,可获得海量数据。社交媒体平台涵盖了许多研究领域,如社会学、商业、心理学、娱乐、政治、新闻以及社会的其他文化方面。将数据挖掘应用于社交媒体可以提供关于人类行为和人类互动方面的令人兴奋的见解。数据挖掘可以与社交媒体结合使用,以了解用户对某个主题的看法,在人群中识别特定群体,研究群体随时间的变化,寻找有影响力的人,甚至向个人推荐产品或活动。

Social Media Mining

例如,2008年的总统大选标志着社交媒体平台在美国前所未有地得到应用。包括Facebook、YouTube在内的社交媒体平台在筹款和向选民传达候选人信息方面发挥了至关重要的作用。研究人员提取了博客数据,以证明候选人使用的社交媒体平台数量与2008年总统竞选的获胜者之间存在相关性。

这个有效的例子强调了数据挖掘社交媒体数据在预测国家层面结果方面的潜力。数据挖掘社交媒体还可以产生个人和企业效益。

社交媒体挖掘是指社交计算。社交计算被定义为“任何软件被用作社交关系的中介或中心的计算应用”。社交计算包括用于人际交流的应用程序,以及与“计算社会学”或社会行为相关的应用程序和研究活动。

社交媒体平台是指各种由许多人协作使用的信息服务,这些服务被归类到下面所示的子类别中。

类别示例
博客Blogger、LiveJournal、WordPress
社交新闻Digg、Slashdot
社交书签Delicious、StumbleUpon
社交网络平台Facebook、LinkedIn、Myspace、Orkut
微博Twitter、GoogleBuzz
意见挖掘Epinions、Yelp
照片和视频分享Flickr、YouTube
维基Scholarpedia、Wikihow、Wikipedia、Event

随着广播、报纸和电视等流行传统媒体,通信完全是单向的,即从媒体来源或广告商到大量媒体消费者。Web 2.0技术和现代社交媒体平台改变了这一格局,从媒体提供商驱动的单向媒体传播转向了几乎任何人都可以向大众发布文字、音频、视频或图像内容。

这种媒体环境正在显著改变企业与客户的沟通方式。它为个人提供了前所未有的机会,可以以非常低的成本与大量人群互动。在线存在并通过社交媒体平台展示的关系是社交媒体平台上的大规模数字化数据集。由此产生的数据为社会学、消费者行为见解和营销以及大量相关领域的应用提供了丰富的机会。

社交媒体平台的用户增长和数量是惊人的。例如,考虑最受欢迎的社交媒体网络网站Facebook。Facebook在运营的头六年里吸引了超过4亿活跃用户,并且一直在呈指数级增长。给出的图示说明了Facebook在前六年的指数增长。根据报告,Facebook在网站流量参与度方面位居世界第二。

Social Media Mining

社交媒体平台的广泛使用并不局限于世界上的一个地理区域。Google运营的流行社交网络平台Orkut拥有大部分美国以外的用户,社交媒体在互联网用户中的使用已成为全球许多地区的主流,包括亚洲、非洲、欧洲、南美洲和中东国家。社交媒体还推动了公司和企业的重大变化,需要决定其政策以跟上这个新媒体的步伐。

社交媒体数据挖掘的动机

通过社交媒体平台可以获取的数据,能够为我们提供前所未有的规模和范围来了解社会网络和社区。这种数字媒体可以转变物理世界的局限性,以研究人际关系,并帮助衡量区域社区的流行社会和政治信仰,而无需进行具体的研究。社交媒体能够有效地记录病毒式营销趋势,并且是更好地理解和利用影响机制的理想来源。然而,由于存在特定的挑战,在不采用数据挖掘技术的情况下,从社交网络网站数据中获取有价值的信息是相当困难的。

数据挖掘技术可以有效地协助处理社交媒体数据的三个主要挑战。首先,社交媒体数据集非常庞大。以最受欢迎的社交媒体平台Facebook为例,拥有24.1亿活跃用户。如果没有自动化的数据处理来分析社交媒体,社交媒体数据分析在合理的时间范围内将变得无法访问。

其次,社交媒体网站的数据集可能很嘈杂。例如,博客领域充斥着垃圾博客,Twitter上的无关紧要的推文也很多。

第三,来自在线社交媒体平台的数据是动态的,在短时间内进行常规修改和更新不仅不常见,而且是处理社交媒体数据时需要考虑的一个重要方面。

将数据挖掘方法应用于海量数据集可以改善日常搜索引擎的搜索结果,实现针对企业的特定目标营销,帮助心理学家研究行为,个性化消费者网络服务,为社会学家提供对社会结构的新见解,并帮助我们所有人识别和阻止垃圾邮件。

此外,开放的数据访问为研究人员提供了前所未有的数据量,以提高效率和优化数据挖掘技术。数据挖掘的进步是建立在海量数据集的基础上的。社交媒体是数据挖掘前沿的理想数据源,可用于开发和测试学术及相关数据挖掘分析师的新数据挖掘技术。