PDFBox 提取图片

17 Mar 2025 | 阅读 2 分钟

在本节中,我们将学习如何从现有的 PDF 文档中提取图像。PDFBox 库提供了一个 PDFRender 类,该类将 PDF 文档渲染为 AWT BufferedImage

请按照以下步骤从现有 PDF 文档中提取图像:

加载现有 PDF 文档

我们可以使用静态 load () 方法加载现有的 PDF 文档。 此方法接受一个 文件对象作为 参数。 我们也可以使用 PDFBox 的类名 PDDocument 调用它。

实例化 PDFRender 类

PDFRenderer 类将 PDF 文档渲染为 AWT BufferedImage。 此类的实例需要一个文档对象作为其参数。 这可以在以下代码中显示。

渲染图像

Renderer 类的 renderImage() 方法可用于渲染特定页面中的图像。 此方法需要传递页面索引,我们要在该页面中渲染图像。

将图像写入文件

我们可以使用 write () 方法将渲染的图像写入文件。 在此方法中,我们需要传递三个参数 -

  1. 渲染的图像对象。
  2. 表示图像类型的字符串(jpg 或 png)。
  3. 我们需要将提取的图像保存到的文件对象。

这可以在以下代码中显示

关闭文档

完成任务后,我们需要使用 close () 方法关闭 PDDocument 类对象。

示例-

这是一个 PDF 文档,我们将使用 Java 程序的 PDFBox 库将其页面提取为图像。


PDFBox Extracting Image

Java 程序

输出

成功执行后,上面的程序显示以下输出。


PDFBox Extracting Image

现在进行验证,打开图像,如下所示 -


PDFBox Extracting Image