数据分析中 8 种偏见及其避免方法

2025 年 1 月 7 日 | 阅读 9 分钟

在分析中,偏见可能以多种方式呈现,包括在假设的形成和检验、抽样以及数据准备过程中。

Qlik 创新与设计副总裁 Elif Tutuk 强调,在所有与数据相关的事务中优先考虑偏见缓解措施至关重要。她指出,偏见可能出现在各个阶段,从数据框架和收集到分析、人工智能或机器学习系统的实施。虽然完全消除偏见可能不可行,但数据科学家可以采取措施将其程度和影响降至最低。

Findem(一家人力智能公司)的首席执行官兼创始人 Hariharan Kolam 表示:“第一步是认识到偏见的存在,不仅存在于正在分析或使用的数据中,也存在于使用它们的人之中。” 这种偏见很危险,因为它可能导致决策失误,进而影响公司的盈利能力和特定利益相关者的利益。一个常见的问题是,人们不关注调查的主要问题。Kolam 进一步建议,数据科学家应明确分析目标,以避免产生歧义的结果。

分析中的偏见有哪些形式?

根据图数据库供应商 Neo4j 的首席产品经理 Alicia Frame 的说法,数据科学家主要将偏见与数据本身联系起来。她确定了几种可能导致向上偏见(upward bias)的来源,包括人为因素、使用不具代表性的数据集、引导性调查问题、有偏见的报告和测量。Frame 指出,偏见可能要到数据应用于决策过程(例如构建预测模型)时才会显现。

多样化人才库如何帮助解决人工智能偏见

例如,医疗数据中不可避免地存在大量白人患者,尤其是在新药测试中。因此,有色人种的经历和结果的阐述较少。这种偏见尤其与 COVID-19 相关,当时生产疫苗的公司正试图加速测试过程,并吸引具有不同基因背景的参与者参加试验。这就是为什么辉瑞最近宣布他们将开始新的试验,并将招募另外 15,000 名患者。“分析也反映了我们周围的偏见,这真是令人失望,”SAS 的全球产品营销经理 Sarah Gates 说。

使用公平性作为原则的另一个问题是,公平性并非一成不变,而是会随着社会定义的变化而变化。路透社最近报道的一个例子是国际文凭组织(International Baccalaureate program)在 5 月份因 COVID-19 取消了高中生的考试。与传统考试不同,一个盲算法为 IB 项目评分,导致许多学生和老师的成绩远低于预期。

在商业方面,偏见也可能源于不同个体记录数据的方式。

例如,人力分析公司 Visier 的首席战略官 Dave Weisbeck 说:“销售人员在更新 CRM 数据时,极不可能将自己列为交易失败的原因。” 数据源反映了某些偏见,仔细选择可以最大限度地减少它们。

以下是数据分析中八种偏见的示例以及应对每种偏见的方法。

1. 重复现有模式

Alicia Frame 说,在数据分析中一种常见且危险的偏见是重复现有模式。例如,亚马逊曾经的招聘工具被发现偏袒男性应聘者,特别是考虑到公司当前的招聘模式。它没有直接考虑应聘者的性别,而是基于与性别相关的因素,如体育和社交活动,或者对成就的描述性形容词。实际上,人工智能识别出了这些细微的区别,并寻找与公司认为成功的应聘者相似的候选人。Frame 认为,一个好的对策是为人工智能系统提供其在世界上的地位以及它们如何与其相关的解释。

2. 训练错误

Aible(由首席执行官 Arijit Sengupta 创立的 AI 平台)指出,与人工智能相关的核心固有偏见之一源于此类模型仅基于模型准确性进行训练——而模型准确性相对不重要——而不是基于对组织而言重要的业务成果。基本问题是算法的前提是所有成本效益分析都是相等的。但在现实商业世界中,正确一方的风险通常比错误一方大得多。例如,赢得一笔交易的回报是 100,000 美元,而未能识别出某个交易是无法赢得的成本是 1000 美元。一个每 100 次只能赢得 1 次的 AI 可能被认为极不准确,但它会极大地增加净收入。Sengupta 表示,数据科学家应明确定义什么构成高成本或低成本,以及哪些结果提供高价值或低价值。

3. 人口代表性不足

Wovenware 的首席运营官兼联合创始人 Carlos Melendez 解释说,在数据分析中省略了本应包含的人群部分是选择性偏见的主要来源之一。这在医学领域产生了严重影响,因为它过去未能关注男性和女性在心脏病表现上的显著差异。这种偏见可能源于训练数据可能没有根据性别、种族或决策的经济性进行调整。Melendez 提出了一些解决这些挑战的方法:纳入多样化的数据科学家人才库是一个好做法。为数据科学家提供多样性培训是避免算法偏见的另一种方法。对算法进行严格的偏见测试是第三种做法。

4. 错误解读/未能命中目标

正因如此,Weisbeck 表示:“如果一个人带着想要找到支持自己信念或观点的理由去分析,那么他就会在分析中找到支持性的数据。”

医学研究人员通过进行双盲研究来对抗这种偏见,在双盲研究中,参与者和信息收集者都不会以任何方式影响结果。尽管这在商业世界中很难实现,但数据科学家仍需要通过分析数据来源来规范这个问题。这种性别平等立场基于 Visier 内部进行的关于同一主题的研究报告。其中一种方法是将数据分成预期会发现偏见和预期不会发现偏见的两组,然后测量结果变量的差异,例如女性的薪资变化与她们的直属上级是男性还是女性相关。

另一项研究策略是寻找偏见可能出现时的类似结果。例如,他们检验了以下假设:“如果他们在薪酬方面没有得到适当的调整,那么他们的绩效评估也同样如此。” 这种方法的前提是,如果存在性别偏见,那么在其他类似领域也会存在。

5. 统计偏见

Kaskada(一家机器学习平台)的数据科学负责人 Charna Parkey 表示,统计偏见可能源于认知偏见。然而,很多时候,分析使用的数据是容易找到的,或者是以“临时”方式收集的,而不是专门构建的数据集。数据从源头收集的方式也会导致接收到的数据产生偏见,这被称为抽样偏差。

选择性偏见的定义如下:给定数据的一个样本,收集的样本不能代表模型将要应用的未来人群。

为了解决这个问题,应该从静态事实转向事件驱动的数据源,这些数据源允许根据实时变化更新数据。这还包括创建可长期跟踪的实时仪表板和机器学习模型。

Parkey 报告说,至少部分地提醒构建模型的人和做出决策的人注意影响他们的无意偏见,并为他们提供尝试避免偏见的策略,这可能有助于减少这些无意偏见。

6. 分析偏见

这两个概念之间的联系是显而易见的,因为分析中的偏见通常源于不完整的数据集和缺乏适当的上下文。Elif Tutuk 强调了认识到在排除关键数据时可能错失的见解的重要性。理解这些被遗漏的关系在分析上与认识现有的关系同样重要。

正因如此,静态数据总是针对事件发生前的时期,因为它通常是在获取时形成的。为了解决这些问题,组织应该使用关联数据技术,使组织能够访问所有必需的数据并将其整合到系统中。

这尤其适用于商业依赖于反馈,并且任何分析都需要几乎立即完成。换句话说,数据必须经过准备并可供重用,因为业务场景在不断发展。为了定义信息的真实语义视图,并使数据管理器能够以业务适应性视图的形式向 IT 提供必要的架构支持,必须根据业务需求而不是实际的现有级别来设计所需的上下文。

7. 确认偏见

在社会研究过程中,确认偏见是研究人员非常普遍的一种陋习,他们只选择查看支持假设观点的证据,而不是寻找矛盾的证据。

TRG Datacenters 的高级网络工程师 Eric McGee 评论道:“在纽约亨特举行的 ERT Simmons 活动中,参与者被要求解决一个假设的犯罪案件,大多数人依靠先入为主的观念,而不是专注于证据来源。‘大多数时候,在做分析时,我们脑子里已经有一个想法了,当我们去寻找统计数据时,我们只看到了证实我们想法的东西。’”

所谓的自我实现预言(self-fulfilling prophecy)这一更广泛概念中最突出的形式之一就是确认偏见,尤其是在处理结果方面。

NTT Data Services 的数据智能与自动化高级总监 Theresa Kushner 分享道:“如果结果与我们的假设一致,我们就不再争论这些结果了。但当结果不支持预测的假设时,我们什么都会重新做——方法、数据或算法——因为我们知道其中一定有问题。”

值得注意的是,Kushner 建议制定一项程序来检测现有模型中的偏见,并在使用它们之前进行处理。例如,NTT Data Services 公司拥有人工智能伦理治理,旨在从设计阶段到部署和使用过程中防范偏见。

8. 异常值偏见

异常值偏见是一种系统性错误,它发生在一些观测到的数值数据点的极端性质影响总体均值或平均值时。

Entrust Solutions 的服务交付和质量总监 Rick Vasko 指出:“例如,如果你使用杰夫·贝索斯(Jeff Bezos)来估算美国人的平均收入,那么由于他的巨额财富,你的调查将会偏离方向。”

异常值威胁到结果的可信度,因为它们是与数据集中大多数测量值差异很大的值。例如,如果一个群体中有十个人,其中一个人拥有 10,000 美元现金,而其余人拥有不到 5,000 美元,那么持有 10,000 美元的人就是一个异常值,应该将其排除在样本之外,以提高结果的有效性。

结论

偏见可以通过扭曲数据分析结果来显著影响决策和公平性。承认偏见始于认识到数据和分析师自身都存在偏见。常见的偏见形式包括重复过去的模式、基于捏造的措施进行训练以及人口样本量不足。

缓解策略包括多种方法,例如将人工智能及其业务影响情境化,促进多样化,过滤事件驱动数据以进行事后分析,以及实时评估人工智能的影响。此外,通过严格的测试和健全的治理来解决统计偏见和确认偏见,对于道德的数据分析实践至关重要。

此外,利用异常值可以提高分析的精确度。总的来说,缓解偏见有助于做出更可信和更具包容性的决策,从而惠及企业和社会。