AI 玩游戏

2025 年 1 月 7 日 | 阅读 9 分钟

人工智能在许多行业都有着卓越的应用,但其中最闪耀的莫过于人工智能在游戏中的应用。人工智能对游戏领域提出了巨大的挑战——无论是像国际象棋、双陆棋和围棋这样简单的游戏,还是极其复杂的电子游戏。本文将讨论人工智能在游戏中的发明、实践、成功以及产生的后果。

历史视角

人工智能的演变可以追溯到二十世纪中期在游戏中的应用。1950年,克劳德·香农首次证明了为计算机编程下棋的可能性。这开启了人工智能与游戏之间长久以来的关系——历史上也出现过几次重大的事件。

国际象棋

国际象棋一直是人工智能的典范。这个程序是由艾伦·图灵于1951年设计的,但他没有计算机来运行它,于是他亲自进行演算。至于1997年IBM公司开发的“深蓝”与世界国际象棋冠军加里·卡斯帕罗夫之间的六局对弈,这是第一台计算机注册胜利并击败了前世界冠军。人工智能在该领域的应用有趣的一点在于,它展示了人工智能如何能够赢得一场复杂的策略游戏。据说“深蓝”依靠其每秒计算数百万步的能力,并拥有数万盘特级大师对局的知识。

Go

由于每一步棋的可能走法比国际象棋的400种要多得多(超过三万种),中国围棋在很长一段时间内被认为对人工智能来说几乎是无解的。2016年,谷歌DeepMind的AlphaGo在一场五局对弈中击败了世界顶尖围棋选手之一的李世石,引起了巨大轰动。这次成功归功于一些前沿技术,即深度神经网络和强化学习,以及传统的搜索函数方法。这是人工智能研究中的一个重要里程碑,因为它证明了计算机系统可以进行抽象思维和直觉判断。

技术与方法

这催生了几种先进的技术,使人工智能在玩游戏方面表现出色。这些技术目前正在开发中,并根据计算机科学和机器学习的创新不断更新。在本节中,我们将探讨一些关键方法及其如何帮助人工智能在游戏中取得成功。

搜索算法

1. Minimax 算法

概念: Minimax 算法对于具有轮流走棋的人工智能来说至关重要。它假设一个玩家想要获得更高的分数,而另一个玩家则试图获得更低的分数。

应用: 国际象棋是一个有趣的例子,它利用 Minimax 算法,使人工智能能够查看所有可能的走法,然后构建一个游戏树,其中每个节点代表一个可能的游戏状态。人工智能预测对手可能做出的最佳走法,处理自己的走法,并试图找到能够为人工智能带来最大但最安全结果的最佳决策(最大化最小结果,即 'minimax')。

局限性: 尽管 minimax 可以成功实现,但它可能是一个耗时耗力的算法,因为每个回合可能的游戏状态数量会变得非常庞大。

2. Alpha-Beta 剪枝

概念: Alpha-Beta 剪枝是一种通过阻止扩展一个内部节点(该节点不太可能影响算法的最终决策)来加速 Minimax 算法的方法。这是通过跟踪两个值来实现的:alpha 和 beta,它们分别表示一个玩家确保自己获得的最低值和另一个玩家确保自己获得的最大值。

应用: 通过消除会导致比先前子走法更差结果的分支,人工智能可以避免浪费时间处理可能不会改善情况的不必要分支。

有效性: 这有助于人工智能在类似的计算资源下进行更深层次的搜索,非常适合国际象棋、跳棋等游戏。

机器学习算法

1. 监督学习

概念: 另一方面,监督学习关注的是涉及使用标记数据的应用程序,这些数据包括输入数据以及预期的输出数据。这可能意味着人工智能代理在运行数千场已记录的游戏时进行自动优化,并将其置于搜索将导致团队胜利的策略的中间。

应用: 训练数据是信息,其中可能包含之前的游戏走法,这些走法作为输入提供给神经网络,目的是训练网络如何找到给定游戏状态的正确走法。因此,人工智能能够模仿专业控制人员的某些模式和走法,并根据他们的反馈做出决定。

示例: AlphaGo 最初是通过监督学习进行训练的,分析了大量专业的围棋对局,以学习职业围棋爱好者使用的可能走法,然后才切换到强化学习。

2. 强化学习

概念: 强化学习(RL)是一种机器学习理论,它利用代理在环境中操作时做出正确行动所获得的指导,并为特定行动获得奖励,或者以惩罚的形式获得惩罚。需要注意的是,在这种情况下需要达到的优化是定义一个能够产生最大预期未来总奖励的策略。

应用: 强化学习中的常见策略包括与自己或对手进行多场比赛,并应用收集到的数据。同时,它也是随机的,因为它不遵循固定的模型,而是根据结果改变其行动。以 Ehrenreich 所述的模型为例,它收集信息并有机地进行调整,逐步学习其技能。

技术

  • Q-Learning: 在随机环境中,一种用于代理在学习过程中估计所谓的 Q 函数的离策略方法,Q 函数是给定状态和任何可能动作(即使该动作未被选择)下未来奖励的累积。
  • 策略梯度方法: 这些方法涉及直接策略最大化,使代理能够在广泛的条件下了解多种最优策略。

示例: AlphaGo 中构成每个决策的关键导航原理涉及强化学习和监督学习。它首先通过学习人类对局开始,然后切换到机器对局,与机器对局进行了数百万次对弈,不仅增强了人类对局中学到的走法集,还花费时间设计了机器对局可能没有预料到但却是可能的新走法。

神经网络算法

1. 卷积神经网络 (CNNs)

概念: 卷积神经网络(CNNs)是一种深度学习模型,习惯于处理网格格式的数据,包括图像。这使得它们能够在无需使用静态特征层次结构的情况下,隐式地学习特征的空间层次结构。

应用: 例如,在围棋或国际象棋等游戏中,CNNs 可以用于评估棋盘位置,并通过检查棋子或棋子的空间排列来识别策略或战术。

功能: CNNs 通常使用的层包括卷积层(对输入数据应用过滤器)、池化层(减小数据维度)和全连接层(基于从其他层派生的高级特征进行决策)。

示例: AlphaGo 利用 CNNs 来确定棋盘配置的得分和潜在的走法,以及树搜索算法。

2. 循环神经网络 (RNNs)

概念: RNNs 用于处理序列数据,因此后续值取决于先前的值或之前的输入。这些对于上下文和结果集顺序相关的应用程序尤其有用。

应用: 另一个优势是考虑先前走法和状态的记忆或依赖性,这有助于人工智能在纸牌游戏或长期依赖性游戏中进行策略确定。

功能: RNNs 的关键特征之一是其隐藏状态——一个捕获先前时间步信息的隐藏向量,有助于模型长时间记住序列信息。基本 RNNs 的改进包括 LSTM(长短期记忆)和 GRU(门控循环单元),它们有助于解决梯度消失等问题。

示例: 其他人工智能系统,例如用于扑克游戏的人工智能,可能会利用 RNNs 来监控下注历史,更重要的是,根据游戏进行的动态过程制定策略。

3. 蒙特卡洛树搜索 (MCTS)

概念: MCTS 是一种用于决策制定的先行搜索算法,适用于大型决策空间,特别适合于具有多种可能走法的游戏。它借鉴了树搜索方法,使用顺序或树状搜索技术,同时采用了蒙特卡洛模拟的特点,其中涉及随机性。

应用: 在这里,MCTS 创建小型搜索树,通过从每个节点执行几次随机模拟来检查每个走法,以指导其后续搜索走法。它同样提供了探索(尝试新可能的行动)和利用(采取已知最佳行动)的功能。

功能

  • 选择: 该算法设想使用一种平衡利用和探索的采样策略来选择树中的节点。
  • 扩展: 影响树大小的重要活动包括增加树的大小,这会向树中添加更多节点。
  • 模拟: 它从新生成的节点运行多次随机模拟,直到游戏结束。
  • 反向传播: 然后将结果通过树向上转移,节点值根据模拟结果进行更改。

示例: AlphaGo 的一个关键概念是应用蒙特卡洛树搜索与神经网络相结合,后者评估特定局面并确定哪种走法将是获胜的走法。这赋予了程序相当大的优势。

人工智能游戏的高级技术

人工智能的进步促使人们倾向于寻求更优越、更可靠的技术,并采用创新的方法,使人工智能能够达到更高水平并处理更具挑战性的游戏。这些面向未来的技术致力于超越人工智能目前所能创造的范围,以开辟进一步增强的可能性,借鉴深度学习的特性、自我改进机制或跨领域迁移以创造新价值。然而,在接下来的几节中,我们将简要介绍一些在当今动态且不断发展的商业世界中高度适用的高级技术。

深度强化学习 (DRL) 概念

另一方面,强化学习(RL)是一个由两部分组成的概念:深度学习和强化学习。尽管 EARL 有其局限性,在解决具有大而高维输入和状态空间任务时存在限制,但 DRL 利用深度神经网络来估计值函数或策略函数,以消除这些限制。

例如,DRL 模型被测试在不同的形式(包括合成纤维、硅、电子游戏像素等等)上,DRL 模型可以直接处理原始感官输入,如图像、视频、LiDAR 点云、雷达和 LiDAR 数据。

应用

DRL 的一个已获得极大活力的应用领域是电子游戏;它涉及仅仅通过玩游戏来学习。如果 AI 达到某些目标或失去所有生命,AI 就会得分或获得其他奖励,反之,如果 AI 未能完成这些目标,它就会受到惩罚。

代理随着时间的推移变得更智能,并总是寻求通过一种称为 Q-learning 或策略改进的技术来达到和最大化总奖励的聚合。

示例

深度 Q 网络 (DQN): DRL 最清晰的用例之一由 DeepMind 在其 DQN 中展示,该 DQN 被训练直接从屏幕帧玩 Atari 游戏;非常熟练的 DQN 已经出现。对于 DQN,它有一个卓越的策略,即使用卷积神经网络处理视觉输入,然后使用 Q 学习算法更新动作-值函数。

AlphaGo Zero: 另一个著名的例子是 AlphaGo Zero,其中深度神经网络和强化学习证明了即使是人类最佳知识也被完全省略。它从头开始训练系统,只允许从自我对弈中学习,但发展速度非常快。

结论

总而言之,人工智能在玩游戏时应用的策略极其多样且复杂,从原始搜索算法到机器学习等最新方法。这些方法不仅帮助人工智能达到人类水平,而且在许多游戏情况下超越了人类。考虑到提到的技术不断演变和发展,人们不禁会注意到,通过在游戏领域应用人工智能来达成某些目标的进展,不仅扩展了该框架,而且还可以应用于现实生活中的问题并提供益处。正如所见,人工智能在游戏中的进步将促进其他领域预期将要实现的开发和创新。


下一主题AI Transformer