可解释性与解释性:Transformer 模型2025年8月13日 | 阅读 12 分钟 引言在许多情况下,人工智能已经开始超越人类水平。为了能够充分利用这些在敏感领域中的能力,需要降低模型的不透明性。例如,在使用人工智能协助医疗专家时,与医疗记录交互以对疾病进行分类的语言模型也需要能够输出支持其结论的解释,才能有用。普华永道的一项全球 CEO 研究中,大多数受访者都持有这一观点,结果表明,全面开放“黑箱”模型在医学诊断和自动驾驶汽车等领域的应用至关重要。在这些高风险应用领域使用“黑箱”模型是不可取的,而 XAI 被广泛认为是一项基本功能。如 Barredo 等人所引用的 XAI 分类法所述,可解释性也可以是识别人工智能中恶意偏见的重要工具。 这项论文工作属于自然语言处理 (NLP) 领域,该领域结合了语音学、计算机科学和人工智能,致力于理解和解释人类语言。随着人工智能模型的复杂度不断增加——集成了机器学习 (ML) 提供的解决方案,以及由此产生的数据驱动的深度学习 (DL)——解释模型预测的难度也在增加。使人工智能模型的输出可信且可解释的努力都属于 XAI 研究领域。2017 年,一种基于注意力机制的神经网络架构被提出。这些被称为 Transformer 的结构,最近已成为 NLP 最引人注目的模型选择。在使用 Transformer 模型执行下游任务(例如情感分析、问答和自然语言推理)时,一个有远见的系统应该能够解释其输出。解释性预测的目的是通过推理和理由来支持输出预测。尽管许多分类法也对 XAI 进行了研究,但对于分类可解释性并没有真正的共识。然而,Danilevsky 等人描述的一种常见方法是区分解释的目的是为了验证整个模型(自解释方法)还是提供个体解释(事后方法)。 Danilevsky 等人还区分了这些解释是作为预测过程的内在组成部分(自解释策略)还是使用某种事后处理技术(事后技术)。 这项工作的独特性在于对应用于 NLP 任务的各种可解释性策略进行了冗长、全面的比较。截至撰写本文时,尚未发现关注这两类技术的类似比较分析,因此该领域的任何进展都受到追捧。Danilevsky 等人的综述论文着眼于量化可解释性,这是一个很好的定量方向。这项工作对于任何需要提高人工智能模型的可解释性和可读性的组织或公司都将具有重要意义。如前所述,在部署高风险应用程序时,出色的可解释性至关重要。这意味着,例如在医疗领域使用人工智能模型的采用者应该对此项工作表现出极大的兴趣。 范围在这项工作中,将对用于理解 Transformer 模型在 NLP 任务上所做预测的自解释策略与事后可解释性策略进行比较。理解这两种技术在定性和定量上的差异以及相似之处,对于拓展 ExNLP 领域内的知识至关重要。本论文旨在研究自解释策略和事后解释策略在 NLP 任务上的相似性、差异性、优点和缺点,以及它们如何产生不同的假设。 探索这两种生成 NLP 任务解释的策略需要考察特定的策略、它们固有的行为方式以及它们在哪些方面相似和不同。一开始就知道,事后和自解释策略都可以生成由输入文本的范围组成的解释。对过去所做的此类分析的程度进行了调查和研究,考察了相关工作。为了进行有意义的评估,该过程按照 Holz 等人提出的计算研究方法 (CRM) 框架进行了系统地阐述。在确定了适当的目标、可解释性策略、数据集和度量之后,评估与所提出的策略一致。基于 Transformer 的语言模型首先使用确定的数据集进行校准。然后,使用两种确定的可解释性策略生成解释,并使用不同的定量度量和定性观察结果进行评估、分析和比较。 TransformerTransformer 是 NLP 中一个广泛使用的深度学习模型,由 Google 的研究人员于 2017 年提出。在 Transformer 出现之前,NLP 领域的尖端模型依赖于循环结构,由于顺序限制,这阻碍了训练的并行化。例如,长短期记忆 (LSTM) 模型是一种基于梯度循环架构,旨在存储更长时间内的信息;或者门控循环单元 (GRU),它通过一个遗忘门来扩展 LSTM 以提高性能。Transformer 的核心,即注意力机制,在之前的设计中,通常与并行的循环网络一起使用。由于注意力机制在没有循环和卷积的情况下使用,Vaswani 等人在 NLP 任务的基准测试中,与当时的最新技术相比,取得了显著的 BLEU 分数提升。在 Transformer 中使用注意力的优势在于模型能够提取全局关系,这对于文本来说效果很好,因为关系通常跨越整个句子,而不仅仅是相邻词之间的关系。 Transformer 架构具有编码器-解码器结构,每个部分由六个具有多头自注意力和全连接层的层组成。左边的图显示了六个相同的编码器层之一,由多头注意力和全连接的前馈网络组成。编码器的这两个部分中的每一个都被残差连接包围,然后是层归一化,以简化和加速训练。输入嵌入首先与适当的位置编码一起处理,以捕捉单词位置的含义和上下文。右边可视化了六个相同的解码器层之一,除了编码器中存在的组件外,它还包含额外的多头注意力来处理输出。解码器中的自注意力被修改,以避免依赖于比当前位置更靠后的输出。 我们还可以看到解码器如何通过 softmax 操作输出分数,这可以解释为概率。为了计算自注意力,输入被分成三个不同的线性层,以创建查询、键和值向量。点积注意力机制是对输入的加权总和,并带有缩放因子 √1dk,其中 dk 是查询向量和键向量。使用这种缩放是为了在应用 softmax 函数后避免梯度消失。对注意力进行处理的过程会并行重复多次,以获得不同的输入投影,从而产生多头注意力。 BERT使用 Transformer 架构,Devlin 等人提出了双向 Transformer 编码器表示 (BERT) 作为解决 NLP 任务的一种策略。在他们之前的工作中,许多标准语言模型(如循环神经网络 (RNN) 的变体、n-gram 语言模型或其他模型)都是以单向方式处理文本的,它们是从左到右或从右到左训练的。相比之下,BERT 模型使用下一个句子预测(即,根据第一个句子预测下一个句子)和一个掩码语言模型目标(即,在训练过程中随机掩码一些 token 并仅根据上下文预测它们)进行预训练。掩码语言模型目标使得表示能够融合左右上下文。 换句话说,实现了输入信息的双向编码,捕捉了日常语言的许多复杂性。预训练后,可以通过添加最终输出层来在不同的下游任务上微调模型,该层允许使用该模型进行问答、情感分析和自然语言推理。在 Transformer 架构中,softmax 操作为模型引入了非线性;因此,通过堆叠多个编码器,可以增加模型的整体复杂度。BERT 预训练模型有两种尺寸:BERTBASE 和 BERTLARGE。BERTBASE 包含 768 维的嵌入向量和 12 层注意力,每层有 12 个注意力头,总共包含 110M 个参数。 较小模型的最大输入长度为 512 个 token。BERTLARGE 的参数数量大约是 BERTBASE 的三倍,在作者提出的所有基准测试中取得了略微更好的结果。总的来说,BERT 模型在 2018 年发布时,在多项 NLP 任务上取得了当时的最新成果。此后,BERT 架构出现了一些改进(例如 ALBERT 和 RoBERTa),取得了更好的性能。然而,由于其巨大的普及度,原始 BERT 模型仍常被用作基准模型。 可解释性与解释性在 Chakraborty 等人的调查中,可解释性和解释性被描述为不同的概念。作者建议在模型响应与推理相结合来解释其预测时使用“可解释性”(解释性)。在这种情况下,满意度指的是解释是否包含了输入的所有相关部分(请注意,这有时被称为广泛性)。如果解释的质量取决于人类如何理解它,则建议使用“解释性”(解释性)。基于这种推理,作者认为可解释性可以直接衡量,通过度量(例如,基于交叉的度量,如 IOU、BLEU 或 ROUGE)来比较结果。解释性——由于其主观性——需要一个预设的上下文才能进行衡量,例如人类专家的经验。为了将不同的视角纳入他们的 ExNLP 调查,Luo 等人提出互换使用可解释性和解释性,因为这两个概念在该领域被普遍接受和使用。他们给出的定义是,它能够为人类合理地解释预测的能力。 Barredo 等人给出了另一个密切相关的定义,不同之处在于他们将可解释性定义为既包括人类如何理解预测,也包括人类如何对模型进行解释。在本工作中,当指代解释的质量时,将仅使用“可解释性”。关于可解释性策略,需要区分考虑模型内在预测过程的解释,还是直接对特定预测的解释。全局解释指的是前者,旨在揭示模型的内部工作原理,而不考虑特征。在此类别中,我们包括通过设计来提供可解释性的模型,例如决策树和规则系统,它们包含学习数据之间逻辑差异的算法。通过检查这些逻辑规则,可以提取全局模型解释。另一方面,局部解释被定义为提供对给定输入的输出的理由。这可以通过硬评分或软评分来实现。本研究评估的可解释性技术都属于软评分,这意味着它们为输入 token 生成权重。这与硬评分技术不同,后者会生成 token 或单词的明确选择。 SHAPSHAP 是一种基于博弈论思想的可解释性技术,引入了博弈和玩家的概念。该概念旨在通过使用 Shapley 值来分配输入特征的重要性,从而解释预测,来理解机器学习模型的结果。在机器学习环境中,单个预测被称为博弈,而输入特征被称为该博弈中的玩家。该策略的目标是量化每个玩家在博弈中的个体贡献,从而理解不同特征的重要性。为达到此目的,将所有可能的特征组合(或联盟)输入到模型中,以理解不同输入及其预测之间的关系。Shapley 值是在所有可能的特征联盟中,平均边际贡献的特征值。SHAP 技术需要为每个可能的特征联盟重新训练不同的预测模型。 通过测量不同联盟预测之间的差距,可以将附加特征的边际贡献分配出去。此外,由于边际贡献的加权,给定特征的 SHAP 值之和等于预测函数预测结果与基线值之间的差值。因此,这些解释被称为加性(Shapley 加性解释)。然而,在实践中,为每个可能的联盟重新训练来计算每个特征的边际贡献是不可行的。对于具有 N 个特征的输入,可能的特征联盟的数量为 2N。因此,在计算 SHAP 值时,需要对不同的特征联盟进行采样和近似。Lundberg 等人提出了几种分析不同联盟的技术,在本工作中使用了模型不可知的 KernelSHAP 技术。使用此技术解释特定输入时,必须将基线向量与输入一起传递给解释器。 基线很重要,因为模型无法处理缺失值(即,我们无法输入缺少 token 的文本段)。这意味着,在提取 SHAP 值的过程中,输入中的 token 被替换为来自基线的 token。因此,获得的重要性是该 token 的可能值。在使用 SHAP 处理图像时,常见的基线是平均值或黑色图像。即便如此,当应用于文本时,基线选择更直观。在实践中,基线通常由填充了 [MASK]、[UNK] 或 [PAD] token 的向量组成,并设置为输入长度。 此外,SHAP 是一种可用于多种数据类型的技术。在这里,将其用于文本时,解释由从输入中提取的单词或 token 组成,并带有单独的重要性分数(正面或负面,是否计入给定标签)。根据 SHAP 的作者进行的客户研究,该策略的性能通常与人类直觉一致。与 LIME 相比,计算复杂度较低。 解释是指博弈论中的 Shapley 值如何关联到线性回归,从而更精确地评估决策函数,但由于分析的联盟数量较多,在计算效率上也更优。同时,与其他 NLP 可解释性策略相比,SHAP 的计算负载仍然很大,这是该策略的一个缺点。与所有其他归因技术一样,SHAP 遵循一个解释模型,该模型是原始模型的线性近似,因此可以表示为 其中 g 是近似函数,z 是联盟向量(即当前考虑的特征子集),而 ϕ 是不同的特征归因值或 Shapley 值。SHAP 是将在本次比较工作中进行分析的事后策略。 三篇流行的综述论文对当前 XAI 研究现状进行了相当全面的概述。2018 年,Gui Dotti 等人试图通过对最先进的论文进行分类来描述该领域。为此,他们提出了
在此早期综述论文中,提到了包括 LIME 在内的许多可解释性策略,LIME 在文中进行了详尽的讨论。此外,注意力覆盖和显著性覆盖被简要讨论,但主要是在关于处理图像数据的模型的部分。提到了一种专门涉及注意力和文本的策略,即 2016 年提出的合理化神经预测 (RNP) 策略。 2020 年,Danilevsky 等人通过对该领域的最新研究进行另一次综述,这次重点关注 NLP 领域。在他们的工作中——除了对几种解释分类和评估质量标准进行分类外——他们还对许多最新的论文进行了分类,涵盖了局部事后、局部自解释、全局事后和全局自解释策略。 结论最后,为了完成对基于注意力的自解释技术和事后 SHAP 策略的比较分析,这两种策略都表现良好,具体取决于数据的性质。注意力似乎不太可能在较长的输入上错过关键单词,但精度可能较差。SHAP 向不助于标签的单词给出负分数,并且 SHAP 在计算上更复杂。基于注意力的解释在过去几年中一直受到批评,并且应该对该技术的解释进行彻底分析。进一步的研究将涵盖自解释和事后可解释性策略之间的所有相关相似性和差异。 |
我们请求您订阅我们的新闻通讯以获取最新更新。