Scrapy vs Selenium vs Beautiful Soup 进行网页抓取

2025年1月5日 | 阅读8分钟

使用各种技术从网页中提取数据的过程称为网络抓取。Python 有许多可用的库，如 Scrapy、Selenium 和 Beautiful Soup，可以用来快速有效地从网页中提取有价值的数据。当涉及到从网站提取数据时，拥有合适的工具至关重要，这对于市场研究、数据分析和机器学习等许多应用都非常重要。Scrapy、Selenium 和 Beautiful Soup 是三个最广泛使用的网络抓取工具。了解哪个工具最适合特定的抓取需求至关重要，因为每个工具都有独特的功能、优势和劣势。

本文将简要介绍这些库、它们的使用和实现。此外，还将介绍哪个工具工作效率最高以及何时使用它。

Scrapy

Scrapy 是一个开源的 Python 网络爬虫框架。它提供一系列工具和功能，用于成功地从网站和网页中提取数据。Scrapy 是数据挖掘、网络抓取和自动化数据提取操作的流行工具。它由 Scrapinghub 开发。该库快速有效地进行网站抓取。它可以比任何其他库快 20 倍的速度提取网站。利用 XPATH 或其他元素，它提供了通过 HTML 标签进行数据提取的内置功能。Scrapy 模块使用的 CPU 和内存非常少。这有助于开发各种应用程序以从网站中有效地提取数据。Scrapy 的可扩展性很强，允许用户通过中间件、管道和扩展来定制和扩展其功能，以满足其特定的抓取需求。

BeautifulSoup

BeautifulSoup 是另一个用于从网站提取数据的工具。它是一个流行的开源框架，可以方便网页抓取。Beautiful Soup 使元素提取和完整网页提取变得更加容易。由于 Beautiful Soup 在解析 HTML 文档方面非常出色，用户可以轻松访问特定元素并在网页的结构中进行导航。由于其用户友好的 API，新手和经验丰富的开发人员都可以使用它。该库的简单易懂的语法简化了从网页中提取数据的过程。Beautiful Soup 可以轻松地与其他 Python 框架和包集成，例如用于数据处理和分析的 pandas 以及用于下载网页的 requests。它与 requests 库配合使用；requests 调用网站，然后 beautifulSoup 使用其函数从网站中提取详细信息。调用网站后，Beautiful Soup 需要解析器来解析 HTML 标签，例如 html.parser、HTML parser 等。

Selenium

Selenium 库是另一个用于网络抓取的工具。Selenium 是一个流行的开源自动化测试框架，主要用于 Web 应用程序测试。然而，它也广泛用于网络抓取任务，特别是对于抓取大量依赖 JavaScript 的动态网页。Selenium 允许用户自动控制 Web 浏览器，以模拟人类与网页的交互。它为 Python、Java、C# 和 JavaScript 等各种编程语言提供了绑定，使开发人员能够编写脚本以编程方式控制 Web 浏览器。它可以在 Chrome、Edge、Safari 等不同浏览器上运行。它提供了外部插件和框架，有助于高效工作和更好的功能。

使用网络抓取工具

1. Scrapy

可以使用 Python 终端或系统环境中的命令提示符中的 pip 命令在 Python 中安装 Scrapy。

使用 Scrapy，可以轻松正确地获取大量记录。Scrapy 作为一个完整的网络爬虫和抓取框架运行。其工作流程通常包括以下步骤：

Scrapy 通过向目标网站的服务器发送请求来开始抓取，以检索网页。它管理爬行过程，包括处理重定向、管理 cookie 和会话以及遵循超链接在网站中导航。
下载网页后，Scrapy 会解析 HTML 内容以提取相关数据。它使用 XPath 或 CSS 选择器来查找和提取特定元素，例如文本、链接、图片或任何其他所需数据。
从网页提取数据后，Scrapy 可以根据需要进一步处理和清理数据。这可能涉及数据规范化、去重或格式化等任务。
Scrapy 提供对将抓取的数据存储在各种格式（包括 JSON、CSV、XML 或 SQLite 或 MongoDB 等数据库）的原生支持。用户可以定义管道来处理提取的数据，并将其保存到所需的格式和位置。
Scrapy 支持异步处理，允许并发请求和高效的资源利用，这对于处理大规模抓取任务很有用。

如何使用 Scapy 进行网络抓取的示例代码

import scrapy

class QuotesScrapy(scrapy.Spider):
    name = 'quotes'
    start_urls = ['http://quotes.toscrape.com']

    def parse(self, res):
        for quote in res.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

        next_page = res.css('li.next a::attr(href)').get()
        if next_page is not None:
            yield res.follow(next_page, self.parse)

这是一个用于抓取为学习网络爬虫而创建的网站的示例代码。

可以使用以下命令运行此命令：

作为输出，它会提供所有抓取的数据以及所有必需的详细信息。

2. BeautifulSoup

BeautifulSoup 是 bs4 库的一个子模块。在 Python 中安装 beautifulSoup 是一个简单的任务。需要安装 BS4，然后才能从 BS4 库中导入 BeautifulSoup。可以使用 pip 命令进行安装。

Beautiful Soup 是一个轻量级的 Python 库，用于解析 HTML 和 XML 文档。其工作流程通常包括以下步骤：

Beautiful Soup 解析用户提供的 HTML 或 XML 文档，创建一个表示文档结构的解析树。
用户可以使用 Beautiful Soup 提供的各种方法和属性在解析树中导航。这允许他们根据标签、属性或 CSS 选择器查找文档中的特定元素或内容。
一旦找到所需的元素，Beautiful Soup 就会提供提取其内容、属性或文本的方法。用户可以检索包含在 HTML 元素中的文本、链接或其他信息等数据。
Beautiful Soup 允许用户根据需要处理和管理提取的数据。这可能涉及数据清理、过滤或转换等任务。
用户可以选择以不同格式输出提取的数据，或将 Beautiful Soup 与其他库或框架结合使用以进行进一步处理或分析。

使用 BeautifulSoup 进行网络抓取的示例代码

import requests
from bs4 import BeautifulSoup

url = 'http://quotes.toscrape.com'
res = requests.get(url)

soup = BeautifulSoup(res.text, 'html.parser')

qt = soup.select('div.quote')

for quote in qt:
    text = quote.select_one('span.text').text
    author = quote.select_one('span small.author').text
    tags = [tag.text for tag in quote.select('div.tags a.tag')]
    
    print(f"Text: {text}")
    print(f"Author: {author}")
    print(f"Tags: {', '.join(tags)}")
    print()

抓取此免费名言网站使用 beautifulsoup 可以简要描述所有抓取到的详细信息。

3. Selenium

Python 提供了 Selenium 的简单结构和框架来抓取网站。可以使用 pip 命令下载。

Selenium 主要用于自动化 Web 浏览器并模拟人类与网页的交互。其工作流程通常包括以下步骤：

Selenium 以自动化模式启动 Web 浏览器（例如 Chrome、Firefox），允许用户以编程方式控制浏览器。
用户可以导航到特定的 URL，与按钮、表单或下拉菜单等 Web 页面元素进行交互，并执行单击、键入或滚动等操作。
Selenium 提供了监视网页元素加载的机制，以确保脚本与页面的动态内容之间的同步。
用户可以通过访问 HTML 元素的内容或在网页的上下文中执行 JavaScript 代码来从网页中提取数据。Selenium 允许检索严重依赖 JavaScript 的动态网页中的数据。
Selenium 可以与其他库或框架集成以进行数据处理、存储或分析。它也可以与 Beautiful Soup 等工具结合使用，用于解析从网页中提取的 HTML 内容。

如何使用 selenium 进行网络抓取的示例代码

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()

driver.get("http://quotes.toscrape.com")

quotes = WebDriverWait(driver, 10).until(
    EC.presence_of_all_elements_located((By.CSS_SELECTOR, "div.quote"))
)

for quote in quotes:
    text = quote.find_element(By.CSS_SELECTOR, "span.text").text
    author = quote.find_element(By.CSS_SELECTOR, "span small.author").text
    tags = [tag.text for tag in quote.find_elements(By.CSS_SELECTOR, "div.tags  a.tag")]

    print(f"Text: {text}")
    print(f"Author: {author}")
    print(f"Tags: {', '.join(tags)}")
    print()
driver.quit()

作为输出，它会抓取网页，使用驱动程序打开网页，并打印出使用 selenium 抓取到的所需详细信息。

选择最佳的网络抓取库

在 Python 中选择最佳的网络抓取库是一项棘手的任务。根据网络抓取项目的复杂性、用途以及依赖于其他不同参数，可以从 Scrapy、Selenium 和 Beautiful Soup 中选择最佳库来高效地执行网络抓取。

1. Scrapy

Scrapy 的结构设计非常规整，使其成为一个强大的网络抓取库。它速度更快，并且具有不同的内置功能，这使其成为抓取网页更有效的抓取器。Scrapy 是一个兼容且高效的库，适用于大规模网络抓取项目。它为以高性能抓取大量网站提供了强大的框架。它支持处理 robots.txt 和可自定义的中间件。当数据项目需要管道时，Scrapy 工作良好。它是生态系统的良好选择。它使用 VPN 或代理来自动化项目。

2. Selenium

Selenium 旨在抓取使用大量 JavaScript 构建的动态网站。它提供了一个实时 Web 浏览器，用于抓取网站。它与 JavaScript 元素交互并抓取有用信息。它可以处理复杂的交互，例如单击按钮、填写表单和滚动。但它比其他库慢。它需要一个 Web 驱动程序来控制浏览器。Selenium 在没有该工具很多知识的情况下无法处理代理。

3. BeautifulSoup

Beautiful Soup 在小型项目或不复杂的操作方面更有帮助。该库非常灵活，并提供了在 Python 中实现网络抓取的简便方法。Beautiful Soup 非常适合简单直接的抓取任务。它非常适合解析 HTML 和 XML 文档。然而，它缺乏自动化导航或 JavaScript 渲染等高级功能。它还提供了一个简单直观的界面，用于导航和搜索解析后的文档。与其他的抓取工具相比，它在处理繁重任务时也是一个缓慢的工具。

结论

在 Scrapy、Selenium 和 Beautiful Soup 之间的选择取决于网络抓取项目的具体要求。对于大规模、高效的抓取任务，特别是对于静态内容，Scrapy 是一个不错的选择。如果目标网站大量使用 JavaScript 并需要与页面进行交互，则首选 Selenium。Beautiful Soup 在更简单的抓取任务中效果很好，或者与其他工具结合用于解析 HTML。如果项目优先考虑大规模抓取任务的速度、效率和可扩展性，Scrapy 可能是最佳选择。对于更简单的项目或快速数据提取，Beautiful Soup 提供了易用性和灵活性。同时，Selenium 对于抓取具有复杂 UI 交互的动态网站至关重要。通常，结合使用这些工具可能是处理网络抓取各个方面最高效的方法。

下一主题Python 中的书本分配问题

Scrapy vs Selenium vs Beautiful Soup 进行网页抓取

Scrapy

BeautifulSoup

Selenium

使用网络抓取工具

1. Scrapy

2. BeautifulSoup

3. Selenium

选择最佳的网络抓取库

1. Scrapy

2. Selenium

3. BeautifulSoup

结论

联系信息

关注我们

教程

面试题

在线编译器

Python

Java

.Net Framework

AI, ML and Data Science

Cloud Technology

B.Tech and MCA

Web Technology

PHP

Software Testing

Technical Interview

Java Interview

Python

Web Interview

Database Interview

B.Tech / MCA

Important Interview

Software Testing Interview

Company Interviews

Online Compilers

Multiple Choice Questions

其他

Scrapy vs Selenium vs Beautiful Soup 进行网页抓取

Scrapy

BeautifulSoup

Selenium

使用网络抓取工具

1. Scrapy

2. BeautifulSoup

3. Selenium

选择最佳的网络抓取库

1. Scrapy

2. Selenium

3. BeautifulSoup

结论

相关帖子

Python语言中我们用什么来定义一个代码块

Python中的数据科学

如何在Python中对直方图进行归一化

Python - 获取函数签名

在Python中将科学计数法显示为浮点数

如何导入具有完整路径的Python模块

使用Ray框架在Python中进行分布式处理

使用Python预测沃尔玛销售额

如何使用Matplotlib在Python中绘制数组

如何从Python字符串中提取子字符串

订阅 Tpoint Tech

联系信息

关注我们

教程

面试题

在线编译器