使用 Spacy 在 Python 中进行自然语言处理

2024年8月29日 | 阅读 8 分钟

NLP 和 SpaCy 简介

自然语言处理（NLP）是人工智能领域，旨在使计算机能够理解人类语言。分析、测量、理解和推断自然语言的含义都是 NLP 的一部分。

注意：基于 Transformer 的 NLP 模型目前最有效。Google 的 BERT 和 Open AI 的 GPT 系列就是这类模型的例子。

SpaCy 从 3.0 版本开始支持基于 Transformer 的模型。本课程中的示例使用了简化的、针对 CPU 优化的模型。但是，Transformer 模型可以就地执行这些示例。SpaCy 支持所有 Hugging Face Transformer 类型。

NLP 有多种应用，有助于从非结构化文本中提取洞察，包括：

自动摘要
命名实体识别
问题解决机制
情感评估

SpaCy 是一个用 Cython 编写的 Python 开源 NLP 库。SpaCy 旨在简化通用自然语言处理或信息提取系统的构建。

SpaCy 安装

本节介绍在虚拟环境中安装 spaCy，以及下载英语数据和模型。

使用 Python 包管理器 pip，您可以安装 spaCy。如果您想独立于系统范围的程序，使用虚拟环境是明智的。有关虚拟环境和 pip 的更多信息，请阅读 Python 虚拟环境：入门和使用 Python 的 pip 管理项目依赖项。

第一步是在新的虚拟环境中构建、激活并安装 spaCy。要了解如何选择您的操作系统，请查看下方。

PS> python -m venv venv
PS> ./venv/Scripts/activate
(venv) PS> python -m pip install spacy

您的虚拟环境已安装 spaCy，您几乎已准备好使用 NLP。但是，您还需要设置一些东西。

对于不同的语言，有几种 spaCy 模型。英语的首选模型是 encore web sm 模型。单独安装模型更好，因为它们占用大量空间——将所有语言打包在一起会太大。

在 encore web sm 模型下载完成后，打开 Python REPL 以确保安装成功。

import spacy
 nlp = spacy.load("en_core_web_sm")

如果这些行没有错误地执行，则 spaCy 已安装，并且模型和数据已正确下载。您现在已准备好使用 spaCy 探索 NLP！

文本处理的 Document 对象

在本节中，您将使用 spaCy 分析提供的输入字符串并从文件中读取相同的文本。

首先，在 spaCy 中加载语言模型实例。

import spacy
 NLP = spacy.load("en_core_web_sm")
NLP
<spacy.lang.en.English at 0x291003a6bf0>

load() 函数返回的 Language 可调用对象通常分配给 NLP 变量。

您创建一个 Doc 对象，然后就可以开始处理数据了。词汇标记由一系列称为 Doc 对象的 Token 对象表示。每个 Token 对象都包含有关特定文本组件的详细信息，通常是一个单词。通过调用 Language 对象并将其输入字符串作为参数传递，您可以创建一个 Doc 对象。

introduction_doc = NLP(
...     "This tutorial is about Natural Language Processing in spaCy."
... )
type(introduction_doc)
spacy.tokens.doc.Doc
[Token. Text for Token in introduction_doc]

输出

['This,' 'tutorial,' 'is, ''about,' 'Natural,' 'Language,'
'Processing,' 'in,' 'spaCy,.' '']

在上面的示例中，使用文本创建了一个 Doc 对象。从那里，您可以获取大量有关已分析文本的数据。

例如，您使用列表推导遍历 Doc 对象，生成了一个 Token 对象字符串。您在每个 Token 对象上使用了它们的 Text 属性来检索构成该 Token 的文本。

但是，您不会经常手动将文本粘贴到函数 Object() { [native code] } 中。您可能会从文件中读取它。

import pathlib
file_name = "introduction.txt"
introduction_doc = NLP(path lib.Path(file_name).read_text(encoding="utf-8"))
print ([token.text for token in introduction_doc])

输出

['This,' 'tutorial,' 'is, ''about,' 'Natural,' 'Language,'
'Processing,' 'in,' 'spaCy,.' '', '\n']

在此示例中，您使用了 path lib。Path 对象的 Read text() 方法来读取 introduction.txt 文件的内容。您将获得相同的结果，因为该文件包含与上一个示例相同的数据。

句子检测

查找每个文本中每个句子的开头和结尾称为句子检测。这使得将文本分成具有语言意义的单元成为可能。当您分析文本以执行命名实体识别和词性 (POS) 标记等活动时（您将在稍后的培训中学习），将使用这些单元。

使用 spaCy 中的 Doc 对象提取句子。句子质量。特定输入的句子总数和单个句子提取如下：

about_text = (
...     "Gus Proto is a Python developer currently."
...     " working for a London-based Fintech."
...     " company. He is interested in learning."
...     " Natural Language Processing."
... )
>>> about_doc = NLP(about_text)
>>> sentences = list(about_doc.sents)
>>> len(sentences)
2
>>> for sentence in sentences:
...     print(f"{sentence[:5]}...")

输出

Gus Proto is a Python...
He is interested in learning...

在上面的示例中，spaCy 准确地识别了输入中的句子。sents 命令返回一个表示单个短语的 Span 对象列表。Span 项目也可以切割成片段以创建句子。

通过使用唯一的定界符，也可以修改句子检测行为。以下是除了句号（.）之外，省略号（...）如何用作定界符的示例：

ellipsis_text = (
...     "Gus, can you, ... never mind, I forgot"
...     " what I was saying. So, do you think"
...     " we should ..."
... )

>>> from spacy.language import Language
>>> @Language.component("set_custom_boundaries")
... def set_custom_boundaries(doc):
...     "Add support to use `...` as a delimiter for sentence detection."
...     for token in doc[:-1]:
...         if Token.text == "...":
...             doc[token.i + 1].is_sent_start = True
...     return doc
...

>>> custom_nlp = spacy.load("en_core_web_sm")
>>> custom_nlp.add_pipe("set_custom_boundaries", before="parser")
>>> custom_ellipsis_doc = custom_nlp(ellipsis_text)
>>> custom_ellipsis_sentences = list(custom_ellipsis_doc.sents)
>>> for sentence in custom_ellipsis_sentences:
...     print(sentence)

输出

Gus, can you...
never mind, I forgot what I was saying.
So, do you think we should ...

在此示例中，您使用 @Language.component("set custom boundaries") 装饰器定义了一个接受 Doc 对象作为输入的新方法。此函数的职责是找到 Doc 中表示句子开头的标记，并将 .is sent start 属性设置为 True。然后该函数必须再次返回 Doc 对象。

然后，使用 .Add pipe() 方法；您可以将唯一的边界函数包含在 Language 对象中。现在，当使用此更改后的 Language 对象解析文本时，省略号后面的单词将被视为新句子的开头。

SpaCy 中的标记

标记文本是构建 Doc 容器的一个步骤。标记化将文本分成其组成部分，或称为标记，在 spaCy 中表示为 Token 对象。

您已经看到，使用 spaCy，迭代 Doc 对象可以打印标记。但是，Token 对象还包含可以研究的其他功能。例如，Token 上的属性仍然支持 Token 在字符串中的原始索引位置。

import spacy
>>> nlp = spacy.load("en_core_web_sm")
>>> about_text = (
...     "Gus Proto is a Python developer currently."
...     " working for a London-based Fintech."
...     " company. He is interested in learning."
...     " Natural Language Processing."
... )
>>> about_doc = nlp(about_text)

>>> for Token in about_doc:
...     print (Token, token. IDX)

输出

Gus 0
Proto 4
is 10
a 13
Python 15
developer 22
currently 32
working 42
for 50
a 54
London 56
- 62
based 63
Fintech 69
company 77
. 84
He 86
is 89
interested 92
in 103
learning 106
Natural 115
Language 123
Processing 132
. 142

为了输出 Token 和 .IDX 属性（表示 Token 在原始文本中的起点），您在此示例中迭代 Doc。此信息对于将来进行就地单词替换可能很有用。

像 spaCy 的许多其他功能一样，标记化过程可以修改以识别特殊字符上的标记。这通常用于连字符词，例如“London-based”。

要修改标记化，您必须向可调用 Language 对象的 tokenizer 属性添加一个新的 Tokenizer 对象。

考虑一个使用 @ 符号而不是标准连字符 (-) 连接单词的文本。这将帮助您理解正在发生的事情。因此，您有 London@based 而不是 London-based。

custom_about_text = (
...     "Gus Proto is a Python developer currently."
...     " working for a London@based Fintech."
...     " company. He is interested in learning."
...     " Natural Language Processing."
... )
>>> print([token.text for token in NLP(custom_about_text)[8:15]])

输出

['for,' 'a', 'London@based,' 'Fintech,' 'company,'. '', 'He']

如果您使用连字符而不是 @ 符号，您将在此示例中获得三个标记，而不是通常的解析，该解析将 London@based 文本视为单个标记。

如果您想使用 @ 符号作为自定义中缀，则必须创建自己的 Tokenizer 对象。

>>> import re
>>> from spacy.tokenizer import Tokenizer

>>> custom_nlp = spacy.load("en_core_web_sm")
>>> prefix_re = spacy. util.compile_prefix_regex(
...     custom_nlp.Defaults. prefixes
... )
>>> suffix_re = spacy. util.compile_suffix_regex(
...     custom_nlp.Defaults. suffixes
... )

>>> custom_infixes = [r"@"]

>>> infix_re = spacy. util.compile_infix_regex(
...     list(custom_nlp.Defaults.infixes) + custom_infixes
... )

>>> custom_nlp.tokenizer = Tokenizer(
...     NLP.vocab,
...     prefix_search=prefix_re.search,
...     suffix_search=suffix_re.search,
...     infix_finditer=infix_re.finditer,
...     token_match=None,
... )

>>> custom_tokenizer_about_doc = custom_nlp(custom_about_text)

>>> print([token.text for token in custom_tokenizer_about_doc[8:15]])

输出

['for,' 'a', 'London,' '@,' 'based,' 'Fintech,' 'company']

在此示例中，您首先创建一个新的 Language 对象。通常，在创建新的 Tokenizer 时，您会提供它：

词汇表： 用于管理缩写和表情符号等情况的特定案例存储容器。
前缀搜索： 用于处理前置标点符号的工具，包括开括号。
后缀搜索： 一个名为后缀搜索的函数处理后置标点符号，例如闭括号。
中缀查找器： 处理除空格之外的分隔符（例如连字符）的函数是中缀查找器。
标记匹配： 一个可选的布尔函数，称为标记匹配，它匹配字符串不应被分割。它对 URL 或整数等项目很有用，并取代了早期的规则。

从编译的正则表达式对象访问的正则表达式函数通常包含涉及的函数。如果您不想更改它们，可以使用第 5 到 10 行显示的默认值生成前缀和后缀的正则表达式对象。

要创建自定义中缀函数，您必须在第 12 行指定一个包含任何所需正则表达式模式的新列表。之后，您将列表连接到 Language 对象。属性 Defaults. Infixes 必须在连接前转换为列表。这样做将合并所有当前使用的中缀。然后，通过将扩展元组作为参数传递给 spacy.Util.compile infix regex()，您可以检索新的中缀正则表达式对象。

当调用 Tokenizer 函数 Object() { [native code] } 时，前缀、后缀和中缀正则表达式对象。Search() 方法 indefinite() 函数将作为参数传递。现在可以更改自定义 NLP 对象的标记器。

之后，您会注意到 @ 符号现在已单独标记。

下一主题Python 中的 Numpy Logical _and()

使用 Spacy 在 Python 中进行自然语言处理

NLP 和 SpaCy 简介

注意：基于 Transformer 的 NLP 模型目前最有效。Google 的 BERT 和 Open AI 的 GPT 系列就是这类模型的例子。

SpaCy 安装

文本处理的 Document 对象

句子检测

SpaCy 中的标记

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Python 问题

使用 Spacy 在 Python 中进行自然语言处理

NLP 和 SpaCy 简介

注意：基于 Transformer 的 NLP 模型目前最有效。Google 的 BERT 和 Open AI 的 GPT 系列就是这类模型的例子。

SpaCy 安装

文本处理的 Document 对象

句子检测

SpaCy 中的标记

相关帖子

Python pyautogui 库

Python 中的 Joint Plot

Python Boost 模块

使用 PyQt5 在 Python 中制作简单的注册表单

Python 3.11 的新功能和修复

Scikit Learn 中的普通最小二乘法和 Ridge 回归方差

使用 Python 将 HTML 转换为 PDF 文件

在 Python 中绘制相关矩阵

Python Nmap 模块

如何调整 Python 中的 Choropleth 地图大小

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器