如何在 Node.js 中使用 Puppeteer

2025年2月28日 | 阅读 4 分钟

Node.js 中的一个名为 Puppeteer 的库提供了一个高级 API 来管理无头 Chrome 或 Chromium 浏览器。它主要用于各种任务，包括自动化测试、网页抓取和屏幕截图。尽管 Puppeteer 通常在无头模式下运行，但也可以将其设置为在完整浏览器（非无头）模式下运行。在使用 Puppeteer 之前，必须先使用 npm install puppeteer 安装它。然后，创建一个脚本并包含 Puppeteer。例如，要打开浏览器标签页，请使用 browser.newPage() 函数；要导航，请使用 page.goto(url)；并启动 puppeteer：page.screenshot({ path: 'example.png' }) 来捕获屏幕截图；使用 browser.close() 来结束会话。Puppeteer 是创建 PDF、自动化测试和网页抓取的最佳工具。有关此精彩工具的更多详细信息，请参阅 Puppeteer 文档。

安装 Puppeteer

如果您想在 node.js 中安装 puppeteer，请先右键单击您选择的位置，然后选择 “新建文件夹” 来创建您最初要进行操作的目录。其他选项包括使用终端命令 mkdir dir-name。

设置 Puppeteer：首先，必须使用 npm 安装 puppeteer 函数。您可以使用以下命令在终端中完成此操作

为您的项目创建一个目录：现在，如果您还没有 Node.js 项目，请创建一个新目录并初始化它

 
mkdir my-puppeteer-project
cd my-puppeteer-project
npm init -y   

在您的项目安装中使用 Puppeteer：最后，在您的项目目录中安装 Puppeteer

示例 1

让我们举一个例子来说明 puppeteer 在 Node.js 中的用法。

文件名：Extract-Text.js

 
const puppeteer = require('puppeteer');

(async () => {
  // Launch a headless browser
  const browser = await puppeteer.launch();
  // Open a new page
  const page = await browser.newPage();
  // Navigate to a website
  await page.goto('https://example.com');
  
  // Extract text content from an element
  const textContent = await page.evaluate(() => {
    // Replace 'h1' with the selector of the element you want to extract text from
    return document.querySelector('h1').innerText;
  });

  // Log the extracted text content
  console.log('Extracted Text:', textContent);

  // Close the browser
  await browser.close();
})();   

输出

 
Running: node extract-text.js
Extracted Text: Example Domain

说明

首先，您需要评估此页面的功能。evaluate() 函数允许您在页面上下文中运行代码，从而可以处理和检索文档对象模型 (DOM) 中的数据。
只需将 “h1” 替换为适当的 CSS 选择器，即可识别您要从中提取文本的元素。
信息记录：使用 console.log() 函数将提取的文本记录到控制台。

示例 2

让我们再举一个例子来说明 puppeteer 在 Node.js 中的用法。

文件名：Submit.js

 
   const puppeteer = require('puppeteer');

(async () => {
  // Launch a headless browser
  const browser = await puppeteer.launch();
  // Open a new page
  const page = await browser.newPage();
  // Navigate to a website with a form
  await page.goto('https://example.com/form-page'); // Replace with actual URL

  // Fill out the form
  await page.type('#name', 'John Doe'); 
  await page.type('#email', 'johndoe@example.com'); 
  // Submit the form
  await Promise.all([
    page.click('#submit-button'), 
    page.waitForNavigation({ waitUntil: 'networkidle0' }), // Wait for the page to navigate after submission
  ]);

  // Capture the result (e.g., confirmation message)
  const confirmationMessage = await page.evaluate(() => {
    return document.querySelector('#confirmation').innerText; // Replace '#confirmation' with actual selector
  });

  // Log the confirmation message
  console.log('Confirmation Message:', confirmationMessage);

  // Close the browser
  await browser.close();
})();   

输出

 
Running: node form-submit.js
Confirmation Message: Thank you for your submission!

说明

填写表单：您可以使用此示例将文本输入到表单字段中。process type（text, selector）。在表单字段中，应使用实际的 CSS 选择器而不是 #name 和 #email。
触发表单提交：该页面用于指定 submit button.selector click 方法。提交表单后，All() 确保脚本等待导航完成。
达到目标：页面加载完成后，脚本会利用它来记录确认加载。calculate()。

结论

总之，Node.js 库 puppeteer 非常灵活，它允许开发人员控制无头 Chrome 或 Chromium 浏览器。此功能使其适用于多种任务，例如以编程方式与网站交互、自动化测试、网页抓取等等。您只需遵循设置说明（包括安装 Puppeteer、创建项目目录和编写脚本），即可轻松导航网页，包括提取数据、填写表单和截屏。这些示例说明了使用 Puppeteer 从简单的文本内容提取或表单提交任务到自动化复杂的 Web 交互是多么轻松。

下一主题Node.js 中的多租户

如何在 Node.js 中使用 Puppeteer

安装 Puppeteer

示例 1

说明

示例 2

说明

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

Node.js 教程

Node.js MySQL

Node.js MongoDB

区别

其他

Node.js 选择题

Node.js Express

面试题

如何在 Node.js 中使用 Puppeteer

安装 Puppeteer

示例 1

说明

示例 2

说明

结论

相关帖子

Node.js fs.dirent.isBlockDevice() 方法

Node.js 中的 Assert.notDeepStrictEqual() 方法

Node.js process.report.reportOnSignal 属性

Node.js 和 Drupal 的区别

Node.js 中的 cluster.setupPrimary([settings])

Node.js 中的 util.types.isFloat64Array(value) 函数

学习 Node.js 的 10 个理由

Node.js 中的密码验证

Node.js vm.runInContext() 方法

Node.js push() 函数

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器