文本、句子、单词分词工作原理？

2025年3月17日 | 阅读 3 分钟

自然语言处理（NLP）是计算机科学的一个领域，同时也是人工智能、信息工程和人机交互的领域。该领域的重点是让计算机能够处理和分析海量的自然语言数据。这并不容易，因为理解和阅读语言的过程比乍看起来要复杂得多。

分词是将文本字符串分解为一系列词元的（token）过程。用户可以将词元视为不同的部分，例如，单词可以是一个句子中的词元，而句子可以是段落中的一个词元。

本教程的关键要素

文本分句。分词
单词分句分词
使用正则表达式进行句子分词

How does Tokenizing Text, Sentence, Words Works

句子分词

句子分词用于将段落中的句子进行分割。

代码 1

from nltk.tokenize import sent_tokenize as ST
  
text1 = "Hello everyone. Welcome to Javatpoint. We are studying NLP Tutorial"
ST(text1)

输出

['Hello everyone.', 'Welcome to Javatpoint.', 'We are studying NLP Tutorial']

“sent_tokenize”如何工作？

sent_tokenize 函数使用 nltk.tokenize.punkt 模块中的 PunktSentenceTokenizer 实例，该实例已经过训练，因此以标记句子开始和结束的字符和标点符号而闻名。

PunktSentenceTokenizer -

PunktSentenceTokenizer 主要用于少量数据，因为它难以处理大量数据。

代码 2

import nltk.data as ND

# Here, we will load the PunktSentenceTokenizer by using English pickle file
tokenizer1 = ND.load('tokenizers/punkt/english.pickle')

tokenizer1.tokenize(text1)

输出

['Hello everyone.', 'Welcome to Javatpoint.', 'We are studying NLP Tutorial']

分词不同语言的句子

我们可以通过使用英语以外任何其他语言的 pickle 文件来分词各种语言的句子。

代码 3

import nltk.data as ND

spanish_tokenizer1 = ND.load('tokenizers/punkt/spanish.pickle')

text1 = 'Hola a todos. Bienvenido a JavatPoint. Estamos estudiando PNL Tutorial'
spanish_tokenizer1.tokenize(text1)

输出

['Hola a todos.',
 'Bienvenido a JavatPoint.',
 'Estamos estudiando PNL Tutorial']

词语分词

单词分词用于将句子中的单词进行分割。

代码 4

from nltk.tokenize import word_tokenize as WT

text1 = "Hello everyone. Welcome to Javatpoint. We are studying NLP Tutorial"
WT(text1)

输出

['Hello',
 'everyone',
 '.',
 'Welcome',
 'to',
 'Javatpoint',
 '.',
 'We',
 'are',
 'studying',
 'NLP',
 'Tutorial']

“word_tokenize”如何工作？

word_tokenize() 函数基本上是一个包装函数，用于调用 tokenize() 函数，后者是 TreebankWordTokenizer 类的实例。

使用 TreebankWordTokenizer

代码 5

from nltk.tokenize import TreebankWordTokenizer as TWT

tokenizer1 = TWT()
tokenizer1.tokenize(text1)

输出

['Hello',
 'everyone.',
 'Welcome',
 'to',
 'Javatpoint.',
 'We',
 'are',
 'studying',
 'NLP',
 'Tutorial']

这些分词器通过分隔标点符号和空格来操作单词。这允许用户选择如何在处理过程中处理标点符号。正如我们在上面代码的输出中看到的，它并没有去除标点符号。

PunktWordTokenizer

PunktWordTokenizer 不会将标点符号与单词分开。

代码 6

from nltk.tokenize import PunktWordTokenizer as PWT
  
tokenizer1 = PWT()
tokenizer1.tokenize("Let's see how it's working.")

输出

['Let', "'s", 'see', 'how', 'it', "'s", 'working', '.']

WordPunctTokenizer

WordPunctTokenizer 用于将标点符号与单词分开。

代码 7

from nltk.tokenize import WordPunctTokenizer as WPT
  
tokenizer1 = WPT()
tokenizer1.tokenize("Hello everyone. Welcome to Javatpoint. We are studying NLP Tutorial")

输出

['Hello',
 'everyone',
 '.',
 'Welcome',
 'to',
 'Javatpoint',
 '.',
 'We',
 'are',
 'studying',
 'NLP',
 'Tutorial']

使用正则表达式

代码 8

from nltk.tokenize import RegexpTokenizer as RT
  
tokenizer1 = RT("[\w']+")
text1 = ("Hello everyone. Welcome to Javatpoint. We are studying NLP Tutorial")
tokenizer1.tokenize(text1)

输出

['Hello',
 'everyone',
 'Welcome',
 'to',
 'Javatpoint',
 'We',
 'are',
 'studying',
 'NLP',
 'Tutorial']

结论

在本教程中，我们讨论了 NLTK 库中用于分词英语以及使用 pickle 方法分词不同语言的句子和单词的各种函数和模块。

下一主题如何使用 sklearn 在 PyBrain 中导入数据集

文本、句子、单词分词工作原理？

本教程的关键要素

句子分词

“sent_tokenize”如何工作？

PunktSentenceTokenizer -

分词不同语言的句子

词语分词

“word_tokenize”如何工作？

使用 TreebankWordTokenizer

PunktWordTokenizer

WordPunctTokenizer

使用正则表达式

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Python 问题

文本、句子、单词分词工作原理？

本教程的关键要素

句子分词

“sent_tokenize”如何工作？

PunktSentenceTokenizer -

分词不同语言的句子

词语分词

“word_tokenize”如何工作？

使用 TreebankWordTokenizer

PunktWordTokenizer

WordPunctTokenizer

使用正则表达式

结论

相关帖子

Python 中的 Matplotlib.figure.Figure.add_subplot()

如何在 Python 中使用 pass 语句

Python 中的 fit(), transform() 和 fit_transform() 方法

最佳 Python 编译器

如何逐行读取 Python 文件

如何在 Python 中创建 requirements.txt 文件

在 Python 中获取图像数据

Python 中的摩尔斯电码翻译器

使用 Dash 进行 Python 数据可视化界面开发

get_screenshot_as_file Driver Method - Selenium Python

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器