人工智能中的决策理论

2025年4月14日 | 阅读 12 分钟

决策理论的定义

决策理论是研究在不确定性和目标冲突的条件下做出最优选择的原理和方法的一个学科。它包含各种模型和框架,旨在根据给定的标准和可用信息,评估和比较不同的选项,以实现最佳结果。

人工智能中决策理论的历史背景

决策理论被认为是一个随着时间推移而发展的领域,尤其源于在风险和不确定性条件下做出恰当选择的尝试。这意味着几个世纪以来,原则一直在变化,并影响了人工智能(AI)等领域。决策理论的历史背景可以追溯到十七世纪。然而,这个分支的正式发展的真正开端,归功于二十世纪基于布莱兹·帕斯卡和皮埃尔·德·费马工作的进展,他们引入了预期收益的特征。这为概率考虑铺平了道路,而概率考虑被认为是决策理论的基础。

20世纪中叶,随着战略科学、经济学和管理科学的进步,决策理论得到了蓬勃发展。约翰·冯·诺依曼和奥斯卡·摩根斯坦将重点转移到战略决策制定上,其中为多主体定义了行动和收益。他们1944年出版的《博弈论与经济行为》一书至今在决策研究中仍具有重要意义。

决策理论在人工智能中的应用早在上个世纪就开始了,其目的是使机器能够独立做出决策。人工智能研究人员使用决策理论框架来处理不确定性并实现最佳结果。因此,一个被广泛推广的决策理论领域是贝叶斯决策理论,它将概率论与效用理论相结合。这种能力有助于人工智能系统根据传入的信息做出决策,并在前者比后者更有可能有效时修正其模型。

后来,在20世纪80年代和90年代,出现了利用决策理论模仿特定领域专家决策过程的专家系统。它们依靠规则和启发式方法来提出建议、做出决策并识别系统问题。由于计算技术的进步,决策网络和影响图现在被广泛使用。这些模型允许表达依赖关系并在不断变化的环境中确定最佳策略。

如今,它已成为人工智能的重要组成部分;应用包括自动驾驶汽车和疾病诊断等。当前的研究旨在进一步推进模型,使人工智能能够做出更正确、更合乎道德的决策。决策理论与人工智能的结合不断发展,增强了智能系统的性能潜力。

人工智能中决策的基本原理

  • 数据分析与预处理
    人工智能在船舶决策中的基础是收集和分析的输入数据。这是清理数据、将其转换为可用格式并进行整理的过程。这一步非常重要,因为通常情况下,它会带来可能提高或降低决策过程结果的各种变化。
  • 概率推理
    人工智能系统在信息不完整的情况下工作,并且通常在不确定的环境中实现。基于可能性的选择也是一种,这些系统可以基于概率来确定可能的结果。在概率推理中,单独的贝叶斯网络和决策树是使用最广泛的方法,它们允许人工智能推断各自的概率,并根据获得的证据更新现有信念。
  • 机器学习
    因此,机器学习算法在人工智能决策中至关重要,因为它们为系统提供了从输入数据中学习的能力,并且随着时间的推移,生成的结果会得到改进。最主要的机器学习方法分为监督学习、无监督学习和强化学习。循环神经网络和其他此类算法有助于训练过程,包括模式识别以及预测性和适应性学习,从而提高了人工智能系统的可靠性以及它们在不断变化的环境中运行的能力。
  • 优化技术
    这对于公司在考虑特定约束的情况下做出最合适的决策至关重要。这些问题的解决方案包括各种算法,例如线性规划、遗传算法和现代群体智能。这些方法使人工智能系统能够正确分配资源以获得预期结果。
  • 专家系统的集成
    基于规则的推理通常在专家系统中使用,以在某些狭窄的学科领域模拟人类的决策过程。这些系统包含一个巨大的知识数据库以及许多规则来提供建议或解决问题。由于需要主题专业知识,它们在高风险的应用领域(如诊断医学或经济建模)中特别有用。
  • 道德和负责任的人工智能
    在人工智能更加独立的情况下,决策的道德问题至关重要。因此,人工智能的决策必须透明、公平和负责任,才能有效地获得公众的信任并避免偏见。它们通过创建道德人工智能框架和负责任的部署范围建议来应对上述挑战。

贝叶斯决策理论

贝叶斯决策理论也可以很好地解释为一种统计模型,它使用贝叶斯定理基于概率和经验做出理性决策。该理论广泛应用于学习理论、模式分析以及人工智能的许多其他领域。它提供了一种可靠的程序,用于根据新情况修改过去的概率,这使其成为风险条件下决策的宝贵工具。

贝叶斯推理基础

这是一种统计推理,其中使用贝叶斯定理,随着更多证据的出现,假设的概率会得到修正。随后是似然度,即在假设 H 的情况下获得观察数据的概率,以及边际节点,即无论事实符合什么假设,数据的概率 D。当有新数据可用时,该先验就会被修改为后验概率,这反映了信念的变化。

贝叶斯定理

贝叶斯定理是贝叶斯推理的基石。其数学表达式为:

Decision Theory in Artificial Intelligence
  • P(H|D) 是在给定数据 D 的情况下,假设 H 的后验概率。
  • P(D|H) 是似然度,即在给定假设 H 的情况下,数据的概率。
  • P(H) 是假设的先验概率。
  • P(D) 是边际似然度或证据,即在所有可能假设下数据的总概率。

先验概率和后验概率

  • 先验概率
    先验概率 P(H) 是在考虑新证据之前,假设为真的知识状态。这个先验可以是主观的,例如专家先验,也可以是客观的,例如来自经验或其他数据。根据先验的选择,结果可能因方法而异,尤其是在新数据样本量较小的情况下。
  • 后验概率
    后验概率 P(H∣D) 是在考虑了新证据 D 之后,陈述的假设的条件概率。它结合了先验概率和在假设为真的情况下观察到的数据的概率。它是后验的函数,包括一个新信念,用相关知识和新数据集取代旧信念。
  • 似然度
    概率 P(D∣H) 是在假设 H 为真的情况下,我们固定在数据 D 上的概率。它评估了设定的假设对收集到的数据的预测程度。在贝叶斯推理中,似然函数是用于将概率从先验转换为后验概率的函数。
  • 边际似然度
    边际似然度,也称为证据 P(D),是在给定任何假设的情况下观察到数据的总概率。它用于使后验概率相加为一,因为这是概率的要求。假设的边际似然度是在对所有可能的值进行似然度求和后获得的。

贝叶斯网络

贝叶斯网络,也称为信念网络或贝叶斯网,是一类特殊的图模型,它们使用有向无环图定义一组变量及其条件依赖关系。它们对于分析具有许多相互反馈和影响的组件且相互作用的系统非常有用,并且经常在人工智能中用于不确定推理和决策。

贝叶斯网络的结构

贝叶斯网络由以下组成:

  • 节点: 指示感兴趣的变量。
  • 边: 从节点 A 到另一个节点的一条箭头表示条件依赖。
  • 条件概率表 (CPT): 每个节点都有一个 CPT,它提供了父节点对该特定节点的影响。CPT 包含节点的概率分布,其中考虑了节点所有父节点的组合。

多主体决策

多主体决策,缩写为 MAD-M,是指多个具有自主能力的智能体协同工作或至少合作或冲突的情况。该领域在人工智能中至关重要,因为它处理智能体需要合作或协调,或者其中一些智能体实际上可能反对其他智能体的情况。MAD-M 包括多种方法和技术,称为多主体系统中的决策算法。

多主体决策的关键概念

  • 自主智能体
    多主体中的每个节点都是自主工作的,因此,其他节点及其行为不会直接影响其行为;其决策基于其局部视角和局部目标。每个智能体的通信和过程不受限制,因为智能体可能拥有不同的目标、能力和信息。
  • 协调与合作
    虽然协调强调个人代理和通过合作工作实现目标,但合作则侧重于联合改善个人或集体成果。这些概念至关重要,因为它们可以促进智能体之间得体和充分的交互。
  • 博弈论
    博弈论是经济学中研究一组策略性互动智能体的行为结果的分支。它模拟了智能体之间的互动以及智能体的行为相对于另一个智能体的行为的合理性。

多主体决策算法

  • 马尔可夫决策过程 (MDPs)
    MDP 用于在随机环境中进行决策,其中智能体必须选择一个行动来获得一定数量的奖励。因此,在多主体环境中,MDP 可以扩展到分散式 MDP (DEC-MDP),其中每个智能体学习其策略,同时考虑其他智能体的信息及其行为的影响。
  • 博弈论方法
    • 纳什均衡 在非合作博弈中,智能体达到一个称为纳什均衡的集合,其中任何一个智能体都无法通过改变其策略来获得更高的收益。这是研究理性且自利的实体之间战略关系的最重要的均衡概念之一。
    • 合作博弈论 强调智能体可以合作以实现共同目标的场景。V 价值合作与其他智能体 Shapley 值以及讨价还价解决方案有助于提供公平的回报。
  • 强化学习 (RL)
    RL 算法允许智能体通过与环境的交互来制定良好的策略。在 MARL(多智能体强化学习)中,智能体需要考虑其他不断变化的策略的学习智能体。为了解决这个问题,采用了集中训练但分散执行策略(CTDE)或多智能体actor-critic框架等方法,以确保训练的稳定性和随后的适当协调。
  • 分布式约束优化 (DCOP)
    DCOP 算法处理约束优化问题,其中智能体旨在在认识到每个智能体的限制的同时达到共同的解决方案。此类算法使用异步消息传递和约束传播等策略来管理不同智能体的决策。

多主体决策的应用

  • 机器人和自动驾驶汽车
    在机器人技术中,有许多机器人协同工作以实现目标,包括搜索、监控,甚至是应对灾难。合作算法可以防止机器人之间危险且不太正确的合作。
  • 交通管理系统
    多主体决策增强了协调的信号控制、路线以及车辆与其他车辆和道路使用者的互动。这使工作更容易,也有助于减少聚集在同一区域的人数。

序列决策

序列决策涉及一个接一个地做出多个决策,其中任何一个决策都取决于过去做出的决策,并影响未来做出的决策。这是一个持续的过程,通常涉及考虑系统在某一时刻的状态以及所采取行动将产生的影响。

关键概念

  • 状态和行动
    状态描述了系统的当前场景或状态。决策者为了从一个状态转移到另一个状态而采取的行动或做出的决定;决策涉及行动。
  • Policy
    策略可以定义为一个计划,该计划确定了在特定状态下应采取的行动方案。它指导了状态链中的决策过程。
  • 奖励和价值函数
    上述奖励函数描述了在特定状态下的收益量,它构成了行动的直接优势。价值函数量化了在给定特定策略下,给定状态的总预期收益。
  • 贝尔曼方程
    贝尔曼方程允许对价值函数进行递归近似,从而生成最优决策模型的有效计算。

示例:投资组合管理

假设我们是一位投资经理,负责在几年内将数千美元转移到不同的投资中。目标是股东财富,特别是能够为给定的风险和市场变化产生最高回报的最优投资组合。

  • 初始状态
    假设我们从一定水平的资本开始——现在,资本可能是100,000美元。市场提供各种投资选项:证券,包括股票、债券、房地产等。
  • 首次决策(第一年)
    考虑到市场状况,您决定在每100美元中将50美元投资于股票,30美元投资于债券,20美元投资于房地产。这取决于当前普遍的市场、经济预测以及您愿意承担的风险水平。
  • 观察结果
    然后,在第一年结束时,检查了已进行的投资的表现。如果平均而言,股票升值了10%,债券升值了5%,而房地产价值几乎没有变化。
  • 二次决策(第二年)
    我们的投资组合正在进展,我们正在改变您的投资。相对于新的市场条件,如果市场状况仍然良好,我们可能会投资更多股票,否则可能会投资其他证券。
  • 后续决策
    此外,我们可以根据您投资组合的现有状况和相应的市场环境,每年继续做出选择。我们始终监控结果,整理新信息,并进行更改以在适当的风险水平下实现最高水平的盈利能力。

专家系统与决策支持

专家系统

另一方面,专家系统是一种计算机程序,它被开发成能够像专家一样提供解决方案。它们在需要大量专业知识的领域很受欢迎,包括诊断医疗保健、预测金融机会和工程。

工作流程

  • 知识库
    专家系统因此由其最关键的组件定义。这个知识库以特定领域或专业领域的的事实和规则的形式存储知识。
  • 推理引擎
    它是工作引擎,利用逻辑推理,从知识库得出结论。其中有前向链接,可以被视为一种数据驱动的方法,以及后向链接,与问题的目标方法相关联。
  • 用户界面
    先进的用户界面也允许用户与系统进行交互,输入数据并选择接收建议或解决方案。有时它更进一步,包含解释功能,能够告诉用户系统是如何得出其结论的。

决策支持系统 (DSS)

决策支持系统 (DSS) 是一种信息系统,它使决策者能够提取有用信息,然后利用分析和模型来做出决策。

工作流程

  • 数据管理
    数据从不同来源(如 DBMS、数据仓库、网络等)收集和处理。这些信息被格式化并输入数据库,准备好使用或分析。
  • 模型管理
    DSS 包含一个模型管理系统,该系统由统计、财务和优化模型组成,用于对数据进行建模并提供信息。用户可以使用这些模型对不同情况进行建模并评估各种结果。
  • 用户界面
    该界面允许用户与 DSS 交互,执行分析和可视化任务,并做出决策。它通常包含图形计算工具,包括图表、图形和仪表板,以增强用户对数据的理解。

结论

总之,人工智能中的决策是连接人工智能与决策理论的框架之一,因为它提供了一种系统性的方法,使这些系统能够做出理性决策。因此,通过应用决策理论,人工智能能够更有效地解释大量数据,并提高预测能力和结果。尽管取得了进步,人工智能在决策方面仍处于一个阶段,仍需加以监管,以防止可能存在的任何不公平待遇。还需要进行进一步的研究,以提高自主人工智能决策的效率,以便更好地为实际应用“学习”。