Python PDF 提取库2024 年 8 月 29 日 | 阅读 6 分钟 在本教程中,我们将学习用于 PDF 数据提取的 Python 库,以便进行进一步分析。我们将介绍重要的 Python 库。 PDF 是便携式文档格式,通常用于安全地存储数据。PDF 简历的创建方式多种多样。例如——一些求职者以 word 格式制作简历并将其保存为 PDF,而另一些则使用在线简历模板创建。因此,我们的任务是解析 PDF 简历并提取所有文本,而不丢失信息。 以下是用于从 PDF 文件中提取文本的重要 Python 库。
我们将介绍每个文档以及 Python 代码。 PyPDF2PyPDF2 是一个完整的 Python 包,可用于执行多种 PDF 操作。我们可以使用此模块执行以下任务。
要使用此模块,我们需要使用 pip 命令将其安装在本地计算机上。 现在让我们来理解以下从 PDF 中提取数据的代码。 示例 - 在上面的代码中,我们打印了 PDF 中的页面数。我们也可以提取信息。 使用 PyPDF2 的缺点以下是 PyPDF2 软件包的缺点。
Textract存在几个用于从各种格式的文件中提取内容的包。Textract 库与其他库略有不同;它提供了一个单一的接口,可以从任何文件中删除内容,而无需任何不相关的标记。 Textract 还用于从 PDF 文件和其他格式中提取信息,包括 CSV、doc、eml、epub、JSON、jpg、mp3、msg、xls 等。 最重要的是要记住,它以字节格式提取信息。要将字节数据转换为字符串,我们需要使用另一个 Python 包进行解码,例如 codecs。 让我们通过 Textract、输入 PDF 和输出提取文本来理解以下使用 Textract 从 PDF 中提取文本的代码。 示例 - 此包可以提取信息而不会丢失任何数据。它保留了原始文档的原始结构;但是,表格结构未被保留。 这是推荐的文本提取库,不仅适用于 PDF,也适用于其他类型的文件。 PyMuPDFPyMuPDF 是 MuPDF 的 Python 绑定,MuPDF 是一个轻量级的 PDF 查看器。它不完全基于 Python,并且该包以其卓越的性能和高质量的渲染而闻名。 使用 PyMuPDF,我们可以从 Python 脚本中访问扩展名为 *.pdf, *.xps, *.oxps, *.epub, *.cbz 或 *.fb2 的文件。还支持几种流行的图像格式,包括多页 TIFF 图像。 我们可以使用 PyMuPDF 提取多页文档的信息。它还允许我们通过提供页码来获取特定页面的信息。以下是使用 PyMuPDF 从 PDF 中提取文本的代码。 示例 - 该库可以删除文本中不必要的空格,因此预处理的文本清理任务会自动由该包完成。 PyMuPDF 能够保持文档的结构。但是,以原始格式提取表格并不可行,并且不建议删除表格数据。我们将不得不使用一些其他包来保留表格中的信息。该库在处理 PDF 的文本数据时提供了有效的结果。 PDFtotextPDFtotext 是另一个基于 Python 的包,用于从 PDF 文件中提取文本。它只能读取 PDF 文件的数据,不支持其他格式。数据以对象的形式移除,并且 PDF 的结构得以保留。 以下是从 PDF 获取数据的代码。 示例 - 使用此库的主要优点是它可以保留 PDF 的表格结构及其文本。如果你想提取表格数据,这个库比之前的库更合适。 PDFMinerPDFMiner 是一个基于 Python 的包,仅用于提取 PDF 文件。它还可以将 PDF 文件转换为其他文件格式,如 HTML/XML。PDFMiner 有各种版本,最新版本兼容 python 3.6 及以上版本。 该库以 API 请求响应的形式提供其响应。这就是为什么这个包比其他纯 Python 包需要更多时间的原因。 让我们理解以下示例 - 示例 - TabulaTabula 是基于 Java 的,主要用于读取 PDF 中的表格数据。它是 tabular-java 的一个简单 Python 包装器,它提取信息并将其保存到 Python Dataframe 中。我们可以将该 Dataframe 转换为 CSV、tsv、excel 或 JSON 文件格式。 在下面的代码中,我们使用 Tabula 包以及输入 PDF 和输出提取的文本,从 PDF 文件中提取表格到 DataFrame 中。 示例 - 此库对于提取表格信息非常有用。将 Tabula 与上面提到的其他包一起使用,可以有效地提取完整的 PDF。 结论本教程包含一些重要的 Python 库,用于从 PDF 中提取文本。这些库各有优缺点;然而,有些适用于提取文本,有些则擅长从表格中提取数据。我们可以根据自己的需求进行选择。我们还包含了代码示例。让我们看看讨论过的库的总结——
下一个主题Python 中读取和写入列表到文件 |
SNMP,即简单网络管理协议,是 SDN 的必要工具,是控制软件中设备的最佳选择。除此之外,应用程序内访问是 SNMP 的主要目的。毫无疑问,所有监控系统都利用 SNMP 来...
11 分钟阅读
简介:在本文中,我们将讨论 Python 描述符。描述符旨在管理许多通过引用获取项的训练的属性。描述符使用了三种不同的策略:__getters__()、__setter__() 和 __delete__()。当这种方法在对象上定义时,我们将调用...
阅读 3 分钟
在本文中,我们将介绍将 Kaggle 数据集导入 Google Colab 的过程。入门:在本节中,我们将介绍两种不同的方法来开始使用 Colab。第一种方法是,我们将通过 Kaggle API 下载数据集,然后...
阅读 3 分钟
如何在 Python 中创建字典 在 Python 中,字典是无序的数据条目序列,可以像地图一样用于记录数据条目。与只将单个项作为对象的替代数据结构不同,...
阅读 4 分钟
在以下教程中,我们将学习如何使用 Python 编程语言进行整除操作。但在开始之前,让我们简要了解一下什么是整除。了解整除 整除是一种正常的除法运算,只是它返回最大的可能整数。这个...
14 分钟阅读
?在图像的不同维度上训练机器学习模型需要将图像转换为 NumPy 数组。通常,转换是隐式发生的;但是,有多种方法可以显式执行相同的操作。它可用于执行复杂的...
阅读 10 分钟
数据库是存储在计算机系统中的结构化信息或数据的良好组织的集合。在数据库中,数据以表格形式排列,我们可以通过查询访问该信息或数据。Python 可用于连接数据库。MySQL 是...
阅读 3 分钟
在本教程中,我们将学习如何使用 Python 读取、写入或对 YAML 文件执行各种操作。我们将讨论 YAML 文件格式、其用法以及如何使用 Python 来操作它。让我们对 YAML 进行简要介绍。什么是 YAML?YAML,缩写...
阅读 12 分钟
亚马逊 Alexa 是亚马逊开发的虚拟助手。它可以进行语音交互、播放音乐、创建待办事项列表、设置闹钟、播放播客、播放有声读物,并提供实时天气、新闻和交通信息。Alexa 还能够控制各种智能设备,包括灯光、开关、恒温器和...
18 分钟阅读
Python 灵活的库和模块提供了多种管理文件和目录的方法。在重命名或移动文件时,开发人员经常会遇到两个常用的函数:os.rename 和 shutil.move。虽然它们都执行类似的功能,但它们具有值得研究的基本特性。...
阅读 6 分钟
我们请求您订阅我们的新闻通讯以获取最新更新。
我们提供所有技术(如 Java 教程、Android、Java 框架)的教程和面试问题
G-13, 2nd Floor, Sec-3, Noida, UP, 201301, India