人工智能(AI)的领域

2025年5月6日 | 阅读16分钟

人工智能(AI)已不再是我们曾经听过的时髦词汇。它是一项快速发展的技术,已经成为我们生活的一部分。它正在改变我们的生活方式、工作方式以及我们与世界互动的方式。AI已经从语音助手渗透到自动驾驶汽车。它是现代生活中不可避免的一部分,要理解AI的运作,我们也需要了解它的核心领域。

在人工智能(AI)的领域中,智能行为被创造和应用。这些领域包括计算机视觉、机器人技术、专家系统、机器学习和自然语言处理。每个领域都以不同的方式为机器提供感知世界、理解人类语言、从事实中学习以及做出判断的能力。

机器学习

机器学习(ML)是AI的一个子集,旨在创建能够通过收集的数据改进性能的计算机,而几乎不需要人工干预。这使其成为不同行业的必备工具,因为它能够处理大型数据集并识别肉眼可能难以看到的模式。机器学习包括不同的学习方法,这些方法可以根据不同的类别进行分组。下面,我们将深入探讨机器学习的主要类型:讨论的机器学习技术包括监督学习、无监督学习、强化学习和深度学习,以及它们在各个领域的用途。

监督式学习

监督学习是整个机器学习模式的一个子集,其中模型使用已标记的数据进行训练。这意味着提供的每个训练示例都将只跟随一个输出标签。监督学习在生成一个映射函数方面很有用,该函数将有助于估算未见数据的标签。

监督学习的类型

  • 回归:回归类算法的目标是对连续值进行预测。常用的一些算法包括线性回归、决策树和支持向量机(SVM)等。例如,根据房屋的大小、面积和卧室数量等特征预测房屋价格。
  • 分类:分类任务要求预测特定类别,例如,电子邮件是否为垃圾邮件。它们经常使用逻辑回归、随机森林和神经网络等算法。

训练过程

  • 监督学习是指模型接收输入和输出示例的数据集的过程。这会导致模型改变参数,以减少测试数据与标签之间的差异。一些使用的方法包括反向传播,这是一种用于调整神经网络模型权重的技术。

评估指标

  • 准确率:它是正确预测的实例数与该类别总实例数之比。
  • 精确率和召回率:精确率计算正确预测为正例的数量,而召回率是好分类器的标志:它可以识别所有相关的实例。
  • F1分数:精确率和召回率的一个单一值,平均这两个值以找到一个中间值。

无监督式学习

无监督学习是指在模型训练时,使用没有指导的标记数据。在此过程中,模型的目标是识别数据中的底层模式或结构。当标记数据量有限或关注点在于数据本身的结构时,可以使用这种类型的学习。

无监督学习的类型

  • 聚类:聚类涉及将被识别为相似的元素组合在一起形成一个组。一些常用的聚类算法是K-Means聚类、层次聚类和DBSCAN。它们的用途包括客户分析和图像存储与处理。
  • 关联:关联有助于发现大型数据集中变量之间的有趣关系。市场篮子分析,即识别一起购买的商品,是一个很好的例子。

应用

  • 异常检测:异常检测是检测异常事物或与正常情况不同的系统特征的过程。它主要用于欺诈检测、网络安全和故障检测。
  • 降维:PCA和t-SNE等算法是降维过程,旨在帮助可视化大型数据集并提高效率。

强化学习

强化学习(RL)是一种学习范式,其中个体与环境互动以做出决策。代理通过奖金或惩罚的形式获得强化,并寻求在无限时间内获得最大数量的奖金。

强化学习的组成部分

  • 代理(Agent):在决策过程中与环境中所有因素进行交互的实体。
  • 环境(Environment):代理操作的上下文,包括状态、动作和奖励系统。
  • 策略(Policy):代理使用此技术来确定下一步要采取的行动状态。
  • 奖励函数(Reward Function):用于审查代理执行的活动的循环。

流行算法

  • Q-Learning:一种利用其他控制器策略但学习动作-状态值的算法。
  • 深度Q网络(DQN):通过引入深度神经网络来解决大规模、复杂环境,扩展了Q-Learning。
  • 策略梯度方法:这些方法直接学习策略参数,以做出更灵活的决策。

应用

  • 游戏:RL在国际象棋、围棋和街机等游戏中,通过AlphaGo和Deep Q-Network等方面的应用,已经达到了超越人类智能的水平。
  • 机器人技术:训练机器人完成日常场景中的简单动作,如抓取和避开障碍物,或绕过障碍物。
  • 自动驾驶汽车:RL被应用于构建导航系统,这些系统可以修改路线并训练车辆如何在当前交通条件下运行。

深度学习

深度学习是机器学习的一个分支,它是一种使用多层神经网络的学习过程。它已经改变了计算机视觉、自然语言处理和语音识别等领域。

神经网络结构

  • 输入层:接收输入数据。
  • 隐藏层:中间层,它们捕获网络的输入并对其进行编码,以提取有助于网络分类任务的特征。
  • 输出层:这是模型的最终输出,通常提供预测或分类。

神经网络类型

  • 卷积神经网络(CNN):重点在于图像处理功能,利用卷积层识别空间层次结构。
  • 循环神经网络(RNN):由于其针对序列数据设计的特性,RNN用于语言模型和时间序列分析。
  • 生成对抗网络(GAN):GAN由两个网络(生成器和判别器)组成,它们生成真实和新的数据点,例如图像或信号数据。

训练深度神经网络

  • 反向传播:一种旨在根据前一个时期产生的错误率调整网络权重的技术。
  • 优化算法:使用随机梯度下降(SGD)和Adam等算法来优化模型,即最小化损失函数。
  • 正则化技术:这些技术,如dropout和batch normalization,有助于减少过拟合并提高模型的泛化能力。

应用

  • 图像和视频分析:深度学习的应用包括面部识别、物体检测和视频标记。
  • 自然语言处理(NLP):应用于语言翻译、文本情感分析和聊天机器人等场景。
  • 医疗保健:根据医学影像和患者预后帮助疾病诊断。

计算机视觉

图像识别

图像识别可以轻松地被认为是计算机视觉领域的第一项技术。它包括识别特定图像中的物体、地点、人物和事件。

它是如何工作的?

图像识别主要依赖于深度学习神经网络,特别是CNN,它们用于处理拓扑数据,包括图像。这些算法通过训练自己来识别模式,并从大量标记的图像集中提取新的、准确的类别,然后调整网络中的初始权重以最小化分类误差。

  • 数据处理:首先,图像被量化并转换为计算机可以理解的一组数字。这包括像素强度以及其他特征提取。
  • 模型训练:模型通过标记数据集进行学习,其中每张图像都提供了正确的标签或类别。这使得网络能够学习区分不同类别的特征。
  • 特征提取:CNN通过卷积和池化层学习特征,以辨别图像中物体的特定特征。
  • 分类:训练完成后,模型能够以高精度将新图像分类到给定的类别中。

应用

  • 医疗保健:我们通过X射线、MRI扫描和CT扫描等图像诊断疾病,如肿瘤、骨折等。
  • 零售:通过识别产品并利用镜头中提供的信息为客户提供推荐,从而改善购物体验。
  • 社交媒体:应用示例包括自动标记照片中的朋友以及屏蔽/过滤朋友认为不合适的内容。

目标检测

物体检测比图像识别复杂一个层次,因为它不仅识别图像中的物体,还用矩形框突出显示它们的位置。

它是如何工作的?

我们之前提到,物体检测与分类和定位密切相关。该算法检测图像中的对象并返回坐标,从而更容易在图像中定义对象。

  • 边界框创建:模型输出的是包围图像中对象的边界框的位置。
  • 分类和定位:同时定义对象是什么以及在哪里可以找到它。
  • 非极大值抑制:减少整个框的数量,选择最可能的框以提高准确性。
  • 训练:有多种方法可以实现实时物体检测,其中YOLO(You Only Look Once)和SSD(Single Shot MultiBox Detector)被广泛使用。

应用

  • 自动驾驶汽车:识别行人和车辆,以及前方的障碍物,以避免发生事故。
  • 安全系统:监控或检测未经授权的人员或在限制区域内进行可疑活动的人员。
  • 野生动物监测:清点和估计野生动物在其自然栖息地的数量,以保护它们。

面部识别

生物识别技术涉及使用面部检测器根据一个人的面部结构来识别和验证一个人。它尤其在安全和个性化领域变得越来越重要。

它是如何工作的?

面部识别系统测量面部属性,将其转换为面部特征,并存储在数据库中。以下步骤对于面部识别至关重要:

  • 人脸检测:人脸检测涉及识别人的面部,通常使用Haar级联或MTCNN(多任务级联卷积网络)等算法。
  • 特征提取:这包括眼睛之间的距离、鼻子的大小和形状、下颌线等特征。
  • 比较和匹配:为了找到匹配项,将提取的特征与数据库中存储的面部特征进行匹配。
  • 验证:前一个阶段是将姓名与数据库中的已知个人进行比较,以确认其身份。

视频分析

视频监控包括识别和评估视频中的现象。鉴于其实时性,它已成为许多领域的重要技术。

它是如何工作的?

这种特定视频内容的提取是使用计算机视觉方法完成的,例如运动检测、对象跟踪和场景识别。

  • 逐帧分析:逐帧扫描以记录过渡并识别运动中的对象。
  • 对象跟踪:事实上,这可以通过跟踪不同帧中的检测对象来完成,目的是分析后续的动作和协作。
  • 事件检测:涉及特定事件,例如汽车事故或某人进入限制区域。
  • 实时处理:这涉及使用能够实时分析视频内容流以获得即时结果的算法。

应用

  • 交通监控:交通监控涉及识别热点,即道路上的拥堵或事故,以改善交通流量。
  • 体育分析:涉及揭示球员的移动模式,并在比赛计划上做出必要的改进,以影响球队的表现。
  • 零售:根据人们的移动模式分析客户活动和商店环境的组织。

增强现实

增强现实(AR)将现实世界和虚拟世界结合起来,将数字信息叠加在真实环境中。计算机视觉是AR的核心技术,因为它允许将增强对象集成到实时场景中。

它是如何工作的?

AR还利用机器视觉来理解环境,将虚拟与物理环境有机地结合起来。

  • 环境理解:它使用一种称为同时定位与地图构建(SLAM)的技术来计算环境的地图。
  • 特征检测:定位是查找数字对象可以放置的点或区域的过程。
  • 交互:允许触摸或操作,换句话说,让虚拟对象与ML的物理环境进行交互。
  • 渲染:高度准确地集成虚拟域和真实域之间的实时交互。

应用

  • 游戏:将现实物理环境的一部分融入游戏可以提高游戏的真实感和创意。
  • 教育:通过将教育内容叠加在现实世界对象上来增强教育。
  • 零售:让客户在购买前几乎可以在家中看到所有产品。

通用人工智能(AGI)

通用人工智能(AGI)一词是人工智能的一个组成部分,它侧重于设计能够理解人类能够解决的各个方面的智力程序的机器。狭义AI在特定任务方面表现出色,例如语言翻译或图像识别,而AGI则追求全面的智能。

定义和现状

定义

通用人工智能(AGI)描述了机器解决人类大脑能够解决的任何问题的能力。这种形式的智能是指超越当前问题并能够将知识从一个领域转移到另一个领域的智能。这种能力包括推理和解决问题的能力,以及应用情感,甚至在最广泛的意义上感知的能力。

现状

AGI在很大程度上仍然是理论性的。今天的AI示例是“狭义AI”的代表,它旨在解决仅略有不同的问题,并且不扩展到不同的领域。尽管AI取得了所有发展,但真正的人工通用智能尚未实现。

  • 技术限制:当代的SQ系统基于精心设计的复杂算法来解决明确的问题。它们不具备像人脑那样学习并将知识传递给其他部门或领域的能力。例如,能够从一种语言翻译到另一种语言的AI,除非程序设计成这样,否则无法将其任务改为解决数学问题。
  • 研究倡议:AGI目前是该行业的热门话题;大多数主要公司和研究实验室,如OpenAI和DeepMind,都深度参与AGI的研究。这条路径考虑了一些方法,包括神经网络、认知架构和迁移学习,以实现具有通用智能的AI。
  • 时间线不确定性:关于何时能实现AGI的观点各不相同,专家们给出的时间范围也各不相同。一些理论家预测它可能在几十年内实现,而另一些人则指出它可能需要很长时间,或者有时根本不可能。执行与人脑相似任务的挑战也阻碍了AGI创建的明确时间线。

研究方向

方法和理论模型

  • 神经网络和深度学习:这些模型试图模仿大脑的能力、结构和学习方法。AI自动化产生了能够像人类一样工作并做出决策的创新,但这些自动化并未得到很好的推广。
  • 认知架构:学者们正在研究ACT-R和SOAR等其他认知架构来模拟人类认知。这些框架试图模仿涉及记忆、学习甚至决策的行为,这可以提供对AGI如何设计的理解。
  • 迁移学习:这种方法主要关注机器将知识从一个领域转移到另一个相关领域的能力。这是迈向AGI的一步;它使系统更加通用、不那么僵化、不那么天真,并且不需要在特定任务上进行训练就能很好地执行。
  • 元学习:元学习也常被称为“学会学习”,这是一个在结构上类似于随着时间的推移为解决特定问题开发更好策略的过程,类似于人类的所作所为。
  • 神经形态计算:神经形态计算专注于创建类似于大脑的电子设备和计算模型。因此,通过创建类似于人脑的系统,科学家们很可能设计出更灵活、更有效的AI。

跨学科合作

  • 神经科学:大脑的知识有助于人们实现AI,从而构思AGI。通过分析大脑的功能,研究人员可以创建更有效的人类思维模型。
  • 心理学:理解人类行为、学习过程和情感有助于开发不仅智能而且了解人类行为的AGI模型。
  • 伦理与哲学:显而易见,随着AGI在未来越来越接近实现,意识、权利和道德地位等哲学问题也将随之而来。一些围绕伦理标准制定的措施有助于AGI的建立和部署。
  • 计算机科学与数学:算法改进、硬件、AI/ML技术以及利用数学形式化的能力是AGI进步的核心。

基础模型和生成式AI

在GPT(由OpenAI)、Gemini(由Google)和Claude(由Anthropic)等大型基础模型的驱动下,生成式人工智能正在改变AI在许多不同领域的应用方式。通过少量输入,这些模型可以生成视频内容、音频、图像、类人文本和代码。这激发了科学研究、教育、软件开发、内容生成等领域的创造力。

应用

虚拟助手、法律起草、营销内容、自动化编码、创意写作和个性化辅导。

边缘AI

TinyML和边缘AI是人工智能使用和部署方式的重大变革。传统上,AI模型需要强大的云服务器来处理数据和做出决策,这有时会导致延迟、能耗增加和潜在的隐私问题。边缘AI通过允许AI计算直接在本地设备(如智能手机、智能摄像头、可穿戴设备或嵌入式系统)上进行,而无需依赖持续的互联网连接,从而改变了这一点。

这种策略保证了更快的响应速度、改进的数据隐私和更低的带宽消耗。 complemento 边缘AI的是TinyML(微型机器学习),它在超低功耗微控制器和嵌入式系统上运行机器学习模型。尽管这些设备体积小、功率低,但它们可以快速进行实时分析和决策。

应用

在医疗保健(例如,患者监测设备)、农业(例如,土壤湿度传感器)、智能家居和工业物联网等领域,即时、本地智能至关重要,边缘AI和TinyML的应用正在迅速普及。通过有限的资源消耗,这些技术为更具响应性、更智能的环境铺平了道路。

XAI

可解释AI(XAI)是指用于使AI系统的决策对人类更透明、可理解和可解释的技术和方法。随着AI模型(尤其是深度学习或集成方法等复杂模型)的进步,它们变得越来越强大,并倾向于成为“黑箱”。

它是如何工作的?

在这些模型中,内部工作原理和预测背后的逻辑很难理解。这通常是健康、金融、法律和自动系统等关键领域的一个大问题,在这些领域,理解AI模型所做决定的原因与做出该决定本身同等重要。

XAI通过理解模型如何处理数据、衡量特征的重要性,从而得出结论来解决这一问题。SHAP(Shapley Additive Explanations)、LIME(Local Interpretable Model-agnostic Explanations)和注意力机制等方法有助于可视化或指出哪些方面对模型的输出很重要。

事实上,可解释AI将有助于在用户中建立信任和责任感,并进一步协助其诊断、公平性和偏见减少,以及符合GDPR等法律和道德标准。最终,随着AI越来越多地融入日常生活,XAI将成为使智能系统更加透明、合乎道德和用户友好的重要合作伙伴。

神经符号AI

新一波人工智能,即神经符号和混合模型,将符号推理与基于神经网络的学习的力量结合在一起。经典的符号逻辑、规则和结构化表示是AI的形式,它们试图模拟人类推理,并且在数学和法律推理等明确知识任务方面具有高度的可解释性和有效性。

神经网络(尤其是深度学习模型)利用这些功能来分析图像、文本和音频等非结构化数据。然而,它们被视为黑箱,可解释性非常有限。神经符号AI旨在融合第一种模式识别功能与第二种基于规则的逻辑推理特性。

为什么选择神经符号AI?

神经符号AI适用于需要从数据中学习并应用逻辑规则的任务,以处理更像人类和更具情境性的推理任务。这种混合模型在科学发现等复杂应用领域蓬勃发展,在这些领域,既需要数据专用的能力,也需要自动系统、机器人技术和自然语言理解。

通过将学习与推理相结合,可以预期神经符号AI将提供更强大、更通用、可解释的AI,这些AI能够适应新场景,同时保持与既有知识的一致性。

自主系统

自主系统和机器人技术已成为人工智能非常活跃的领域,它们使机器能够独立感知、决策和行动,而几乎不需要人类干预。这些系统已扩展到许多不同的领域,如制造业、物流、农业、医疗保健和个人助理。

现状

这一发展是一个电子学领域:机器人技术,它被定义为配备了传感器、执行器和智能控制算法的机械系统,使系统能够在现实世界中运行。目前的自主机器人倾向于基于强化学习原理构建,其中机器人通过与环境互动并实时获得反馈来学习应展现的行为。

它们在视觉和语言输入方面的能力使得能够进行视觉解释并理解自然语言命令,特别是在人机关系方面。波士顿动力公司等公司制造了Spot和Atlas等高度灵活的现场机器人,它们可以在非常崎岖的地形上行走并执行物理任务。另一方面,特斯拉的Optimus仍在构思中,目标是成为一种能够在家居或工厂等半结构化环境中执行任务的类人机器人,以实现几乎通用目的。

结论

总之,需要注意的是,人工智能的领域包括相当广泛的应用,这些应用在人类生活和行业的各个领域中实现并跨越。从自然语言处理和机器人技术、计算机视觉和专家系统,所有这些领域都提供了可以提高生产力、效率和创造力的潜在功能。

这些是正在改变人们与技术互动方式以及公司运作方式的人工智能领域,它们推动了医疗保健解决方案、金融、娱乐等方面的发展。因此,随着AI的发展,其领域将变得更加广泛,这将带来新的可能性和前景,定义自主技术的进一步发展及其对人们生活的影响。