人工智能中的自然语言处理是什么?

2025 年 4 月 15 日 | 阅读 12 分钟

NLP 的定义

自然语言处理(NLP)是人工智能的一个应用,主要处理人与计算机之间的交互,涉及自然语言的使用。因此,NLP 的最终目标是让机器能够理解、分析和生成语言,从而在不同语境下和出于特定意图理解意义。第一个方面是计算语言学,它是计算机科学的一个子学科。它以语言分析作为其前缀而出现,而第二个方面是人工智能;这些是计算机能够决定给定文本或语音内容的程序。

上述内容表明,NLP 的任务并非都相同。其中一些任务包括但不限于分类、情感分析、翻译和语音识别。为了执行这些任务,在输入后会根据输入语境应用句法和语义分析、命名实体识别以及词义消歧。

NLP 的历史背景

NLP 的历史根源可追溯到语言学、计算机科学以及人工智能。可能可以追溯到 20 世纪 50 年代,当时设计了机器翻译的初始系统。一项如此活动的首次尝试可以归功于 1954 年的 Georgetown-IBM 实验,在该实验中,一台计算机将 60 个俄语句子翻译成英语。因此,这次实验激发了必要的兴趣,并奠定了将在后续实验中详细阐述的基础。

亚洲首次取得重大成就的是 20 世纪 60 年代的 Weizenbaum 的 ELIZA 程序。ELIZA 是最早的 NLP 系统之一。它是一个能够与人类进行对话的系统,从而证明了构建“自然语言处理计算机”的可行性。尽管如此,大量的基于规则的系统似乎不足,程序也遇到了语言理解的问题。

尽管如此,在 20 世纪 70 年代和 80 年代,随着第一批 NLP 统计模型的出现,NLP 模型的发展取得了进一步的进展。这些方法利用概率和统计信息来处理本质上是随机和不可预测的领域,即人类语言。他们还发现,在生产改进的语言模型时,语料库和带注释的数据集在当时是必需的。

智能技术,特别是隐马尔可夫模型和决策树的应用,在 20 世纪 90 年代初开始流行。这些模型提高了自然语言处理或包含语音转文本转换或词性分析等分析任务的应用程序的实用性和成本效益。

得益于 21 世纪深度学习神经网络的出现,NLP 取得了重大发展。这些包括 Word2Vec、RNN 和 Transformer,它们增强了 NLP,从而增强了机器翻译、情感分析和对话助手等任务。BERT 或 GPT 等海量模型的训练极大地提升了 NLP 的水平,并成为当前 AI 方法论的基础。

NLP 在人工智能中的重要性

增强人机交互

  • 自然语言处理改进了人与计算机之间的通信,交互性突破了机器处理人类自然语言的能力。
  • 这使得用户可以使用自然语言而不是个人关键词与辅助智能解决方案(例如 Siri、Alexa 等智能个人助理)进行交互。因此,NLP 增强了用户体验,并由于其更简单易懂的技术而促进了人与 AI 之间的更好互动。

社交媒体数据分析和摘要

  • 文本挖掘还使用 NLP 来分析大量非结构化数据中的基于文本的数据。在这种情况下,AI 系统的处理难度降低,使其能够轻松地处理可用信息和数据,并准备一份关于已执行的行为和动作的简明摘要。
  • 此功能对于记者、律师和内容编辑进行文本分析以快速高效地工作也至关重要。通过这样做,组织可以节省时间并确保获得的见解得到了充分体现。

更好的情感分析和客户画像

  • 情感分析是 NLP 的一项应用,可帮助 AI 评估文本材料(包括帖子、评论和反馈)中表达的态度和情感。
  • 因此,许多组织能够了解客户的感受和需求,公司也更容易改进其产品或服务。在品牌声誉管理方面,NLP 还利用情感来识别负面评论的正确身份和行动方案,以提高购物者的满意度和忠诚度。

多语言翻译和可访问性

  • NLP 在 AI 翻译的开发中也发挥了至关重要的作用,这有助于将各种类型的内容传达给全球“消费者”。
  • 如今,有用于文本和语音翻译的最先进的 NLP 模型,可以将复杂的文本和口语从一种语言翻译成另一种语言,从而打破障碍。这在国际组织和跨文化业务中非常重要。
  • 此外,自然语言处理的集成将提高翻译速度,这对那些语言理解能力较差或有残疾的人来说将是一个巨大的优势。

自动内容审核和合规性

  • NLP 最重要的实际用途之一是内容审核,通过内容审核,AI 引擎可以排除任何有风险、有害或同时违反特定规范的材料。此功能对于基于用户内容(特别是社交网络和电子商务平台)的网站更有用。
  • 在过滤掉淫秽词语和其他负面信息的同时,NLP 确保负面信息不会在市场上流传。此外,根据作者的说法,NLP 允许企业实体严格遵守有关可发布内容的法律和市场规则,以消除法律问题并提供品牌形象。

NLP 的核心组成部分

文本预处理

文本预处理是 NLP 中采取的第一步,在该步骤中,原始文本通过先进行清理来为后续阶段做好准备。此过程包括几个子步骤:

  • 分词 (Tokenization): 这涉及到将单词或句子分割成标记(token),可以是词的一部分、一个词,或者一个句子的一部分或整个句子。在这里使用分词是为了有一个基本的内容供文本聚焦,机器可以正确地识别它。
  • 去除停用词 (Stop Word Removal): 这是一个停用词列表;它们是意义最不重要的常用词,包括 the, and, is, are, at, on, it, thus 等……去除噪声有助于降低数据的维度,从而更容易关注文本中最相关的部分。
  • 词干提取和词形还原 (Stemming and Lemmatization): 词干提取将单词还原为其原始或基本形式,例如使用“running”。在词形还原中,单词会根据字典和称为词根(例如将“better”还原为“good”)的操作,被还原为其简单或基本形式。这些过程有助于某种形式的规范化,以便对文本进行分析。

语法分析

  • 这也称为解析(parsing),它涉及句子的语法剖析。这个组件对于检查给定句子的结构是否允许非常有用,并且确实有助于传达单词之间的代数关系。
  • 句法分析允许人们发现单词在形成特定语言时的用法以及一个人可用的单词类型。

语义分析

最多或最少,应用语义分析来评估单词和句子的含义。它比释义更进一步,因为它涉及理解所说内容的含义,理解所传达内容的能力以及它是如何传达的。这包括:

  • 命名实体识别 (NER): 有两个特别重要的方面。第一个是实体识别任务,指的是识别和分类文本中的实体。实体可以是人名、组织名、地名等。
  • 词义消歧 (WSD): 一个词的指代物与该指代物在给定语境下的识别之间的区别;例如,一个词可以指代多个对象或现象(例如,“bank”可以指金融机构或河岸)。
  • 情感分析 (Sentiment Analysis): 强迫或更确切地说鼓励自己区分文本内容中的积极、消极和介于两者之间的部分。

语用分析

  • 语用分析是通过确定文本的含义来实现的,以便可以参考社交环境和情绪的性质来对其进行分析。这可能在解释所说内容方面非常重要,尤其是在有习语、讽刺或委婉语等评论时。

机器学习模型

  • NLP 的当前用法是与一套机器学习模型一起使用的。这些模型通常通过深度学习进行训练;它们学习大量数据,并可用于翻译、求和、生成对话等。
  • 它们假定文本中的结构和关系,因此,它们的能力包括推荐指定短语的最后一个字母,并在智能生成的情况下像人类一样做出响应。

NLP 中的技术和方法

统计方法

统计学通过整合数据分析使 NLP 成为焦点。它使用基于模式的原理来评估从信息系统的信息中组成单词和结构的概率。

  • N-grams: N-gram 是指给定文本中的 N 个单词或字符序列,其中 N 是任何数字。因此,基于这些序列的计数,统计模型可以确定给定单词具有特定序列的概率,这在语音识别和文本预测等任务中很有用。
  • 隐马尔可夫模型 (HMM): HMM 适用于序列学习类问题,如词性标注(POS tagging)和命名实体消歧(Named Entity Disambiguation)。它们利用概率模型,以某种方式用于识别与相应单词或单词字符串匹配的标签或标记的相对概率。
  • 统计方法优于基于规则的方法,因为计算是基于数据集的,因此可以检测新的语言模式。但是,为了使这些模型非常准确,需要大量数据。

深度学习技术

当前的 NLP 采用深度学习方法,例如使用多层神经网络学习语言模式。这些模型在提高 NLP 系统在不同方面的准确性和有效性方面做出了贡献。

  • 循环神经网络 (RNNs): 这是因为 RNN 适用于此类序列数据,因此有效地应用于语言建模、翻译和文本生成等任务。它们以分层方式处理输入,这意味着,当当前输入正在被处理时,前面的输入将被禁止保存在内存中。
  • Transformer: Transformer 是 NLP 中的主导架构,因为与 RNN 相比,它们在处理文本中的长距离依赖方面速度更快。其他模型包括 BERT、GPT、T5,它们基于 Transformer 构建,并在文本合成、问答和文本摘要等各种 NLP 任务中处于领先地位。

混合方法

替代方法或组合方法结合了纯粹的基于规则的方法以及统计方法和机器学习方法,以利用每种方法的优势。例如,它可能包括在数据预处理中使用规则,在模式分析和预测中使用机器学习。

迁移学习

迁移学习是 NLP 领域中流行的主要方法之一,它涉及针对数据稀疏的特定任务对大型预训练表示进行微调。这项技术得到了 BERT 和 GPT 等模型的支持,使处理数据变得更加容易,并在此过程中改进了 NLP 的不同任务。

NLP的应用

情绪分析

  • NLP 最常见的应用领域之一是情感分析,其中所需任务是根据情感对输出进行分类。这项工作证明了客户信息和反馈。
  • 这是一种很好的方法,因为它将有助于企业或组织根据评论或帖子中发布的信息,深入了解公众对特定产品或服务的看法。它有助于解决一些客户问题,以提高他们的满意度,从而提高品牌形象。

聊天机器人和虚拟助手

  • NLP 通过提供自然语言来解析用户提供的查询,为聊天机器人和其他自动化工具(如智能个人助理 - Siri、Alexa、Google Assistant 等)提供支持。
  • 这些是功能齐全的交互式系统,几乎可以完成从回答用户输入的任何问题或指令到控制家用电器的一切。它们提供即时和具体的支持,以提升客户体验;它们已被集成到客户服务、医疗保健和智能家居领域。

机器翻译

  • NLP 还用于机器翻译,这里的系统能够高效地将一种语言翻译成另一种语言,无论是文本还是语音。事实上,一些现代 AI NLP 算法应用在 Google Translate 等应用程序中,用于实际翻译。
  • 此应用在国际关系中至关重要,因为它有助于个人或公司使用不同语言进行沟通,从而加强他们的关系和商业合作。

文本摘要

  • 它与通过关注要点来压缩大量文本内容的概念相关。这用于提供文章、报告和文档的摘要等用途。
  • 这是记者、律师或任何处理大量内容的人的必备工具之一,因为它使用户能够眨眼之间就能获得最相关的数据。

语音识别

  • 转录是另一个专业领域,处理将语音转换为文本的方法。它已被集成到许多转录、语音识别和听写软件中。
  • 在语音方面,NLP 可用于方便地将会议记录或语音转换为文本,同时进行对话;NLP 也有优势,因为它使免提计算成为可能,从而使用户更加轻松。

问答系统

  • 这项学习使得构建问答结构成为可能,用于解码查询并根据大量数据提供解决方案。它们用于搜索引擎、语音助手和客户关系,以提供正确且合适的响应。
  • 它们采用语义技术,有助于理解问题的含义,并将系统引导至正确的抽象和简洁的答案。

信息检索

  • 它们利用 NLP 从大数据中搜索或检索特定信息,甚至提取所需类型的信息。这些系统的主要目的是使客户能够在互联网搜索引擎、数字图书馆、数据库等中搜索文档或文档中的信息。
  • 通过使用自然语言处理并采用用户查询的实际意图,搜索优化提高了搜索结果的相关性。

NLP 中的挑战和局限性

语言的歧义性

  • 自然语言的模糊性,即特定词/句子的歧义性。尽管如此,所有这些含义都不会有 NLP 系统可以分析的路径,并且可能会得出任何错误的分析。

文化和语言多样性

  • 这包括文化和语言多样性,如前所述,它也被开发用来操纵学习者和其他学术表现。NLP 模型适用于全球语言及其衍生语言,或分别适用于目标国际市场的国家文化。

理解语境

  • 在 NLP 中,识别语言使用的语境至关重要。语境是产生解释错误的根本原因,尤其是在应用(或当使用长句子或存在交互且涉及许多交互语境时)时。

数据缺乏和数据质量

  • 通常,构建 NLP 模型需要大量清晰的训练文本以及带注释的训练数据。然而,关于许多语言或某些特定主题的数据可能稀缺,这反过来意味着开发高效且精确的 NLP 工具和模型相对困难。

伦理考量

  • 根据不同层次的文本进行分类也涉及到自然语言处理系统,但鉴于用于训练的数据的性质,其结果可能是带有种族主义和歧视性的。该领域需要解决的另一个问题是伦理和无偏见的 NLP 模型,因此,本文正确地解决了这个问题。

结论

NLP 可以定义为人工智能的一个有效领域,它塑造了人与计算机之间直接通信的手段、工具、评估和人机化。在自然语言处理的应用中,该过程导致计算机能够理解、评估和生成自然语言。它还促成了许多应用程序的开发,包括人工智能虚拟助手应用程序和人工智能(或 AI)情感分析应用程序。在其关键目的中,它为增强“人机界面”做出了贡献,并用于处理不可计数的海量文本或语音活动。在这种人工智能中,实现了旨在提高技术对人类的友好性的里程碑,换句话说,增强了人与机器之间的接口。