使用 Python 将 HTML 转换为 PDF 文件

2025年1月9日 | 阅读 4 分钟

我们大多数人都可能知道,有许多网站不允许用户将网站内容下载为 PDF 格式文件。相反,它们要么要求您购买其服务的付费版本,要么根本不提供 PDF 格式的下载服务。

然而,像 Python 这样的编程语言提供了 PDFKit 模块来生成 PDF 文件。在接下来的教程中,我们将了解如何使用 Python 编程语言中的 PDFKit 模块将 HTML 转换为 PDF 文件。

理解 Python PDFKit 模块

Python 提供了各种生成 PDF 文件的方法;然而,PDFKit 是其中一些最佳方法之一。PDFKit 作为 wkhtmltopdf 工具的包装器,允许程序员使用 Webkit 将 HTML 文件转换为 PDF 格式。它可以使用不同的图像格式、HTML 表单和其他复杂的打印文档将 HTML 渲染为 PDF。

如何安装 Python PDFKit 模块?

要安装 Python 模块,我们需要“pip”,这是一个用于管理软件包的框架,可以从受信任的公共存储库安装模块。一旦我们有了“pip”,我们就可以使用 Windows 命令提示符 (CMD) 或终端中的命令来安装 PDFKit 模块,如下所示

语法

现在,我们需要安装 PDFKit 模块的依赖项,即 wkhtmltopdf 工具。

对于 Ubuntu/Debian

键入以下命令

命令

适用于 Windows

步骤 1:我们可以从以下链接下载 wkhtmltopdf 工具

https://wkhtmltopdf.org/downloads.html

步骤 2:在环境变量中将 PATH 变量设置为二进制文件夹。

验证安装

模块安装完成后,我们可以通过创建一个空的 Python 程序文件并写入如下 import 语句来验证它:

文件:verify.py

现在,保存上述文件并在终端中使用以下命令执行它:

语法

如果上述 Python 程序文件未返回任何错误,则模块已正确安装。但是,如果引发异常,请尝试重新安装模块,并且还建议参考模块的官方文档。

现在,让我们开始使用 Python 中的 PDFKit

在 Python 中使用 PDFKit

本节将演示如何使用 Python 编程语言中的 PDFKit 模块通过不同的示例将 HTML 转换为 PDF 格式文件。

Python PDFKit 模块允许程序员使用 from_file() 函数将本地 HTML 文件转换为 PDF 格式。让我们看一个演示此功能的示例

示例

输出

Converting HTML to PDF files using Python

说明

在上面的代码片段中,我们导入了所需的模块。然后,我们定义了一个名为 config 的变量,该变量使用 configuration() 函数存储 wkhtmltopdf 工具的可执行文件的地址。然后,我们使用了 PDFKit 模块的 from_file() 函数,并将参数指定为 html 文件的地址、要存储的 PDF 文件的位置以及配置。

结果,我们已成功将本地 HTML 文件转换为 PDF 文件。

我们还可以使用 Python PDFKit 模块通过 from_url() 函数将网站 URL 转换为 PDF 文件。让我们看一个演示此功能的示例

示例

输出

Converting HTML to PDF files using Python

说明

在上面的代码片段中,我们导入了所需的模块。然后,我们定义了一个名为 config 的变量,该变量使用 configuration() 函数存储 wkhtmltopdf 工具的可执行文件的地址。然后,我们使用了 PDFKit 模块的 from_url() 函数,并将参数指定为 URL、要存储的 PDF 文件的位置以及配置。

结果,我们已成功将 URL 转换为 PDF 文件。

此外,PDFKit 模块允许程序员使用 from_url() 函数将字符串存储到 PDF 文件中。让我们看一个说明此功能的示例

示例

输出

Converting HTML to PDF files using Python

说明

在上面的代码片段中,我们导入了所需的模块。然后,我们定义了一个名为 config 的变量,该变量使用 configuration() 函数存储 wkhtmltopdf 工具的可执行文件的地址。然后,我们使用了 PDFKit 模块的 from_string() 函数,并将参数指定为字符串变量、要存储的 PDF 文件的位置以及配置。

结果,我们已成功将字符串存储到 PDF 文件中。