什么是人工智能 (AI) 中的图灵测试?

2025 年 8 月 29 日 | 阅读 10 分钟

1950 年,艾伦·图灵提出了一项测试,以检查机器是否能像人类一样思考;这项测试被称为图灵测试。在这项测试中,图灵提出,如果一台计算机在特定条件下能够模仿人类的反应,就可以说它是智能的。

图灵在他 1950 年的论文《计算机器与智能》中提出了图灵测试,其中考虑了“机器能思考吗?”这个问题。

Turing Test in AI

图灵测试基于派对游戏“模仿游戏”,并进行了一些修改。这个游戏涉及三名玩家,其中一名玩家是计算机,另一名玩家是人类应答者,第三名玩家是人类审讯者,他与另外两名玩家隔离,其任务是找出他们两人中谁是机器。

假设玩家 A 是计算机,玩家 B 是人类,玩家 C 是审讯者。审讯者知道他们其中一个是机器,但他需要根据问题和他们的回答来识别出来。

所有玩家之间的对话都通过键盘和屏幕进行,因此结果不会取决于机器将单词转换为语音的能力。

测试结果不取决于每个正确答案,而仅仅取决于它回应得多么像人类的答案。计算机被允许尽一切可能强迫审讯者做出错误的识别。

问题和答案可以是这样的

审讯者: 你是计算机吗?

玩家 A(计算机):

审讯者: 乘以两个大数,例如 (256896489*456725896)

玩家 A: 长时间停顿并给出错误的答案。

换句话说,如果审讯者无法分辨哪个是人类,哪个是机器,那么计算机就通过了测试,并且被认为是智能的或思考的机器。

纽约商人休·洛布纳于 1991 年宣布了一项竞赛,为第一台通过图灵测试的计算机提供 100,000 美元奖金。但迄今为止,还没有任何人工智能程序通过未经稀释的图灵测试。

图灵测试的历史

人工智能 (AI) 的历史上,艾伦·图灵于 1950 年提出的图灵测试是一个非常了不起的里程碑。在他的论文《计算机器与智能》中,他对此进行了阐述。为了回答这个深刻的问题,图灵试图复制与人类智能相当的机器智能。

图灵对创造能展现智能行为的思维机器产生了兴趣;这种好奇心是其基础。图灵测试是他用来判断这种机器是否能与人类自然对话,足以被认为是人类的实用方法。

由于图灵在这方面的工作,这项测试成为人工智能研究的基础和机器智能的首次讨论。它为评估人工智能系统提供了基础。图灵测试在结构上发生了变化,并继续成为一项与改进和辩论需求相关的爱好。然而,它在人工智能发展中具有巨大的历史意义,并继续激励着当前的研究人员,也是衡量人工智能进展的基准。

图灵测试的变体

多年来,人们提出了图灵测试的新版本,以试图克服这些局限性并反映人工智能的真实能力

  1. 完全图灵测试: 它是图灵测试的扩展版本,不限于基于文本的对话。它衡量机器不仅能理解和响应单词,还能理解和响应审讯者提供的视觉和物理线索的能力。它包括看到向它展示的物体并采取所需的行动。本质上,它试图确定人工智能是否能够以反映对世界的更深入理解的方式在世界中行走。
  2. 反向图灵测试: 在这里,角色互换,对传统的图灵测试进行了扭曲。在这里,机器本身充当审讯者。它应该根据收到的响应将人类与其他机器区分开来。通过这种反转,人工智能被用来评估你的智能类型,因为这使得检测人工智能成为可能。
  3. 多模态图灵测试: 多模态图灵测试是一个概念,旨在评估人工智能在通信方式多种多样的情况下,同时处理和响应各种通信模式的能力。它研究人工智能是否能够毫不费力地同时处理和回复文本、语音、图像,甚至可能是其他模态。这是一个接受我们沟通方式多样性的变体,并询问人工智能是否能够处理我们复杂的互动方式。

尝试图灵测试的聊天机器人

ELIZA: 约瑟夫·魏泽鲍姆是 ELIZA 的创造者,这是一个自然语言处理计算机程序。其存在的原因是为了证明机器与人类交流的能力。图灵测试总是暗示着尝试开发首批聊天机器人之一。

Parry: 肯尼思·科尔比于 1972 年创建了一个名为 Parry 的聊天机器人。Parry 旨在模拟精神分裂症患者(最常见的慢性精神疾病)。他们将 Parry 描述为“带有态度的 ELIZA”。在 1970 年代早期,Parry 使用图灵测试的一种变体进行了测试。

Eugene Goostman: 聊天机器人 Eugene Goostman 于 2001 年在圣彼得堡创建,并参加了各种版本的图灵测试。Goostman 赢得了被宣布为世界上最大的图灵测试比赛,有 29% 的评委被误导认为它是人类。Goostman 类似于一个 13 岁的虚拟男孩。

中文房间论证

许多哲学家反对人工智能的整个概念。我听说过这份清单上最著名的论证,即“中文房间”。

1980 年,约翰·塞尔在他的论文《思想、大脑和程序》中提出了思想实验,称为“中文房间”,它与图灵测试的概念相矛盾。在他的论证中,他说,编程计算机将使计算机能够用语言说话,但计算机对语言的真正理解和意识。

他补充说,无论这些设备(例如 ELIZA 和 Parry 等机器)可能通过玩弄关键词和符号轻松通过图灵测试,它们立刻就没有真正理解语言。因此,它甚至不是一种“思考”能力,例如人类。

机器通过图灵测试所需的功能

  • 自然语言处理: 但在这种情况下,审讯者与我们沟通的最常见格式是人类通常会使用的语言,例如英语。
  • 知识表示: 作为在测试期间存储和检索信息的手段。
  • 自动化推理: 回答这些问题需要使用已存储的信息。
  • 机器学习: 适配器应能够使业务服务适应新的变化(通过新的协作模型)和模式(业务服务固有的)。
  • 视觉(适用于完全图灵测试): 测试是识别审讯者动作和其他物体的东西。
  • 运动控制(适用于完全图灵测试): 这样做:如果触发了所要求的内容。

图灵测试的局限性

  • 并非智能的真正衡量标准: 不仅如此;仅仅通过图灵测试,它甚至不是机器智能,更不是机器意识。对计算机在没有理解或意识的情况下重现类人反应能力的这种批评是约翰·塞尔的“中文房间”异议。
  • 测试场景的简单性: 就图灵测试而言,在基于文本的人机交互中占据人类注意力的世界将缺乏机器在观察和响应世界方面所能做和不能做的一切。

图灵测试在人工智能中的应用

在聊天机器人和虚拟助手开发中的作用

另一种迷人的人工智能应用是聊天机器人和虚拟助手,例如 Chatgpt、Alexa、Siri 等,它们试图以其所有优点复制相同的人类通信。

  • 设计类人对话: 开发人员通常创建聊天机器人,以便聊天机器人尽可能通过图灵测试,或冒充人类。这实际上是关于给定上下文的上下文、语气变化和返回机制等。
  • 用户参与度评估: 在寻找符合图灵测试标准的人工智能系统时,发现它们在处理人类之间对人类兴趣的渴望方面更智能。例如,大多数虚拟助手的历史表现都包括几个对话中的暗示,共同形成了“个性化”的性质,即幽默、同理心等。
  • 基于反馈的迭代改进: 这是通过受图灵测试启发的方法完成的,遵循通过反馈持续改进的形式。那些不依赖于处理模糊查询的能力,同时能够检测幽默并给出智能响应的系统得到了改进。

推进自然语言理解

由于图灵测试,自然语言理解 (NLU) 的发展在人工智能中扮演着关键角色。

  • 上下文理解: 图灵的思想是关于上下文理解的。例如,它也有这样的需求,即人工智能系统必须发明复杂的处理算法才能在后台运行并生成流畅、连贯的对话。
  • 语义分析和消歧: 因此,人工智能模型已经过训练,以便它们能够缓解多义词和句子在给定上下文中的不同含义之间的微小语义差异,以通过图灵测试。
  • 增强机器翻译: 以人类方式传输信息的需求,以使其准确性和文化重要性,超越符合自然语言模式,鼓励机器翻译。

基准化人工智能系统中的类人行为

因此,图灵测试成为衡量人工智能系统行为是否“类人”的感官度量。

  • 评估会话能力: 例如,通过其参与人类思维形式的互动能力进行评估。如果我们这样做,这是一个好兆头,因为我们正在努力为某些相关任务获得与人类相当的智能。
  • 人工智能系统间的比较分析: 该测试可以对人工智能系统的优点和需要改进的领域进行分类。它鼓励开发人员之间进行更大的竞争和创新,以简化更多更好的模型。
  • 为通用人工智能设定目标: 尽管开发可以执行各种类人任务的通用人工智能系统的长期目标是领域特定的,但对于当前的人工智能系统来说,它仍然太多。

图灵测试的优点

  • 简单性和直观理解:图灵测试是一个易于理解的简单过程。它被定义为测试与人机交互相关的事物,直观到即使是具有技术知识的普通人也可以测试机器的智能。
  • 关注实际结果:最终,这项测试将被认为是理想的,因为它只是一个由人机组成的简单概念网状系统。
  • 鼓励自然语言处理 (NLP) 的发展:由于它是一项基于 NLP 的测试,它在 NLP 方面有很好的发展,因此它是聊天机器人、虚拟助手以及基本上所有会话式 AI 系统的重要组成部分。
  • 普遍吸引力:无论是否通过问题解决,以及是否尊重图灵测试,我们都可以讨论图灵测试不需要任何问题解决方案作为依赖项。
  • 历史和哲学意义:图灵测试成为关于智能和意识哲学讨论的热点,同时也是人工智能和认知科学研究最受欢迎的领域。

图灵测试的缺点

  • 定义智能的模糊性:该测试不检查其他类型的智能,例如创造力、解决问题或道德推理,而是测试机器模仿人类行为的能力。
  • 侧重于欺骗:一旦通过图灵测试,通常意味着欺骗人类评委,而不是拥有真正的智能。正是这种对欺骗的依赖,使得人工智能的表面结果无法说明真正的进步。
  • 偏向类人行为:问题在于它假设智能是类人行为,没有理由我们不能像非人类一样智能,甚至比人类更智能。
  • 范围有限:图灵测试所指的只是说话,很少或根本不涉及其他方面。身体整理、感知和推理。
  • 容易受到预定义脚本的影响:此类脚本响应或漏洞可能会规避测试,从而误导人们对人工智能系统实际能力的判断。
  • 伦理和哲学批评:约翰·塞尔(中文房间论证)等哲学家对通过图灵测试是否代表智能、理解或意识以及因此它是否是智能的有效测试提出了质疑。

结论

从这个意义上说,图灵测试是人工智能会话技能至今仍被评判的重要门槛。它在聊天机器人和虚拟助手的开发和评估中仍然至关重要。许多公司和开发人员已使用不同版本的测试来评估其人工智能系统的会话能力。

然而,尽管人工智能领域已经大大超出了图灵测试的范围,但图灵测试仍然具有相关性。现代人工智能系统利用先进的自然语言处理、机器学习和深度学习技术来执行比模仿人类说话更复杂的任务。虽然人工智能确实能够进行栩栩如生的对话,但其应用现在涵盖了医疗保健、金融、自动驾驶汽车和图像识别等广泛领域。