数据收集中的偏见

2025 年 1 月 7 日 | 阅读 9 分钟

引言

由于大数据和人工智能的日益普及,数据已成为许多行业(如营销、金融、医疗和政府等)决策中最有价值的资产。然而,偏见这一主要问题仍然根植于大数据中,影响着数据分析,加剧了不公平,并扭曲了数据驱动的决策。数据偏见会导致有偏见的模型,这些模型可能对人类造成损害和歧视。数据偏见类似于人类偏见,如种族歧视和性别刻板印象。由于人类数据是机器分析的大部分数据,这些偏见也会在机器中得到复制。

数据偏见的定义

当一个信息集不准确且未能代表整个群体时,就会发生数据偏见。这是一个严重的问题,因为它可能导致结果不准确和反应偏颇,从而导致不平等。因此,识别它们并迅速采取行动来避免它们至关重要。

理解数据中的偏见

“偏见”一词描述了在数据处理、分析或收集阶段引入的系统性错误或扭曲,这些错误或扭曲会导致结果不准确。偏见可能以多种方式出现,例如算法偏见、测量偏见和选择偏见。

选择偏见

当特定的群体在数据样本中被系统性地排除或代表性不足时,就会出现选择偏见,导致结果失真。不回应偏见、抽样技术和群体差异是一些导致这种情况的原因。

测量偏见

由于数据收集技术或设备中的错误或不一致,测量偏见会导致测量或评估结果失真。文化或语言差异、主观解释和测量错误是测量偏见的常见来源。

算法偏差

算法偏见可以被描述为将某些偏见编程到机器学习模型或算法中的过程,以产生对某些群体有偏见的结果。这些偏见可能源于模型使用的算法、使用的训练数据,甚至源于决策过程本身。

AI中的数据偏见

AI中的偏见主要有两个类别:认知偏见和数据不完整。

认知偏见

认知偏见是在信息评估中影响人们决策方式的系统性错误。这些偏见可能通过两种主要方式影响机器学习算法:

  • 设计者无意识的偏见

在开发算法时,设计者可能会无意中将自己的偏见添加到模型中。这些偏见反映了他们自己的观点、想法和经历,可能会影响模型的行为。

  • 有偏见的训练数据

用于训练 AI 算法的数据可能存在偏见。这些偏见是另一种形式的歧视,人们会因肤色、性别或任何其他因素而受到负面对待,这些都是社会偏见。如果用于开发 AI 模型所采用的训练数据集存在偏见,那么模型也会反映出偏见。

数据不完整

AI 中偏见的另一个来源是数据不完整。如果用于训练 AI 的数据不是随机的,或者不是一个好的样本,那么就可能存在某种形式的偏见。例如,本科生的数据结果经常被用于心理学研究项目,这可能无法公平地反映更广泛社区的多样性。

数据中的偏见类型

响应/活动偏见

这种特定类型的偏见存在于用户生成的数据中,包括社交媒体平台(如 Facebook、Twitter 和 Instagram)上的帖子以及电子商务网站上的评论。

用户生成数据中反映的观点和偏好很可能代表了大多数人的观点,因为贡献这些数据的人只占总人口的一小部分。

社会偏见

社会偏见仅来源于人类创建的内容。无论是在社交媒体上还是在精心挑选的新闻报道中,这种偏见都可能持续存在。当应用种族或性别刻板印象时,这种情况就会发生。这有时被称为标签偏见。

遗漏变量偏见

当数据中缺失影响其结果的重要特征时,就会出现这种类型的偏见。这通常发生在数据生成过程中有人为干预时,这增加了出错的可能性。当在数据记录过程中无法获得重要属性时,也可能发生这种情况。

反馈循环/选择偏见

当用于训练模型的数据受到模型本身影响时,就会发生这种偏见。在对内容进行排名时,选择偏见很常见,因为某些用户比其他用户更频繁地看到某些项目。

用户对收集到的项目提供的评论会用于创建这些项目的标签。因此,未被收集的项目会产生未知的答案。另一方面,用户回复也容易受到操纵。任何与项目相关的内容,如它在页面上的位置、字体、媒体等,都可能影响它们。

系统漂移偏见

当产生数据的系统发生渐进式变化时,就会发生这种类型的偏见。这些变化包括更改底层模型或算法,以允许用户以完全不同的方式与系统交互,或者可能涉及捕获数据中的属性(包括结果)。

如何识别偏见?

一项调查中的偏见可能以三种不同的方式出现:

数据收集

数据收集是最常发现偏见的地方之一。由于人们经常收集数据,因此存在偏见和错误的几率更高。以下类别适用于数据收集中的常见偏见:

  • 当选择的数据不能代表整个群体时,就会发生选择偏见。
  • 系统性偏见是模型中反复出现的错误。
  • 当数据收集过程中的参与者提供的答案被认为不真实或有误时,就会发生响应偏见。

数据预处理

这是您准备数据进行分析的地方;可以将其视为确保数据 100% 无偏见和合乎道德的额外措施。

过程的第一步是找到数据中的任何异常值,这些异常值会异常地影响模型本身。

处理缺失数据也可能是偏见的一个主要迹象。如果忽略缺失的数字或用数据的“平均值”替换它们,结果实际上会被改变。在这种情况下,您的数据收集将更多地偏向结果而不是整体“平均值”。

此外,数据有时可能会被过度过滤,并且过度过滤的数据通常会失去反映原始数据目标的可能性。

数据分析

即使在完成了数据收集的前两个阶段之后,数据分析中仍然可能存在偏见。在分析阶段,最常观察到以下偏见:

  • 确认偏见是指在纳入假设的同时,强调支持理论的数据的做法。
  • 使用扭曲的图表(或图形)来不准确地表示数据,这些图表具有误导性地描绘了信息。这会导致从模型中得出错误的推论。

修复 AI 和机器学习算法中的偏见

首先,在收集所有必要的数据后,您应该认识到 AI 偏见仅源于人类偏见,并专注于从数据集中消除它。然而,这比看起来要困难。

一种基本方法是移除使算法产生偏见和包含受保护分类(例如种族或性别)的数据。然而,这种策略可能不起作用,因为缺失的标签会影响模型的理解,从而降低您调查结果的准确性。尽管没有万能的方法可以消除所有偏见,但这里有一些专家(如麦肯锡)提出的关于减少 AI 偏见的最佳方法的建议:

评估算法和数据中的偏见风险

为了发现任何潜在的偏见来源,详细了解算法和数据集至关重要。这包括评估子群体和训练数据集的代表性,以及监控模型的性能以确定 AI 可能提高公平性的方式和地点。

实施去偏策略

在 AI 系统中减少偏见的关键是制定一个全面的去偏计划。该计划应包括技术、运营和组织措施。组织措施旨在创建透明和包容的工作环境;运营策略侧重于简化数据收集程序;技术策略利用技术来检测和减少偏见。

改进数据收集流程

由于人为干预、偏见和错误,数据收集是偏见的常见原因。为了减少偏见,获取具有代表性和多样性的数据至关重要。这可以通过在数据收集过程中纳入各种观点、进行仔细的数据准备以及避免过度数据过滤来实现。

增强模型构建和评估

在模型构建和评估过程中,识别和处理可能被忽略的偏见至关重要。为此,必须定期评估模型的性能,以发现偏见并进行必要的更正。改进模型构建过程有助于企业减少偏见,提高其 AI 系统的整体准确性和公平性。

采用多学科方法和多样性

伦理学家、社会科学家、领域专家和其他领域的专家必须合作,以最大限度地减少 AI 中的偏见。如果这些专家为 AI 开发过程贡献了多样化的观点和见解,那么识别和减轻偏见将更容易。此外,拥有一个多元化的 AI 团队有助于识别和解决可能被忽视的偏见。

利用偏见检测和缓解工具

AI 系统可以受益于使用多种工具和库来帮助识别和减少偏见。IBM 开发的 AI Fairness 360 包是一套用于评估和减少 AI 模型中偏见的测量和算法。IBM Watson OpenScale 提供即时偏见检测和缓解。Google 的 What-If Tool 可以评估模型行为和各种数据变量的重要性。使用这些技术可以更容易地识别和处理偏见。

数据偏见的例子

数据偏见可能以多种方式出现。亚马逊在 2010 年代中期创建的一个基于 AI 的候选人评估工具是有偏见数据的著名例子。该工具于 2018 年被淘汰,因为它从历史上排斥女性的招聘实践中学习。

费城 SEPTA 的安全系统是数据偏见的另一个例子。当算法从代表犯罪、警察或监狱趋势中存在种族歧视的数据集中提取犯罪行为模式时,它们可能会预测有色人种更有可能犯罪。这可能使人们面临偏见和种族貌相的风险。

这些是数据偏见可能产生影响的严重例子。然而,这说明了普通人可能因数据误用或误解而遭受的后果。

数据收集中的偏见来源

  • 历史偏见和社会偏见

数据收集过程可能受到社会规范和历史偏见的制约,从而边缘化代表性不足的群体并维持结构性不公正。例如,歧视性的招聘程序或法规可能导致就业数据中某些人口群体代表失真。

  • 数据收集方法和工具

当创建或使用数据收集工具和程序时,可能会引入偏见。例如,问卷或调查中的引导性问题、文化偏见或语言限制可能会扭曲回答并导致结果失真。

  • 人类判断和解释

数据收集和分析在很大程度上依赖于人类的判断和解释,这为认知扭曲和主观偏见留下了空间。影响分析和决策的三种常见认知偏见是易得性、锚定和确认偏见。

缓解数据收集中的偏见

  • 多样化和具有代表性的数据收集

使用各种观点、人口统计和环境来确保数据收集过程的多样性和代表性。健全的抽样策略、对不回应偏见的考虑以及对数据来源的验证可以减少选择性偏见。

  • 透明度和问责制

通过陈述方法、假设和限制,可以鼓励数据收集和分析的问责制和透明度。促进公开讨论和同行评审,以识别和纠正数据解释中的任何偏见。

  • 偏见检测和校正

使用数据分析工具和方法来识别和减少数据分析中的偏见。为了发现和纠正有偏见的结果或预测,请使用公平性指标、敏感性分析和偏见检测方法。

结论

在数字时代,数据收集中的偏见决策过程的公平性和完整性构成了严峻挑战。通过识别偏见的根源和影响并实施缓解技术,组织可以促进数据驱动项目中的透明度、问责制和公平性。这将最终在数据生态系统中建立信任和信心。