如何在 Python 中读取 HTML 表格17 Mar 2025 | 4 分钟阅读 在本教程中,我们将学习如何使用 Python 读取 HTML 表格。众所周知,每天都会产生大量数据,我们需要提取相关信息。互联网是获取相关数据的绝佳来源,网络爬虫是从网络收集数据的最佳选择之一。 此外,Python 借助 BeautifulSoup 模块可以使网络爬虫变得更加容易。 我们将使用 Python 的 pandas 库,该库因其数据处理能力而广受欢迎。它提供了 read_html() 函数,该函数有助于将网页上的 HTML 表格读取为 DataFrame 对象列表。 前提条件要使用 Python 脚本读取 HTML 文件,我们需要安装 pandas 库。安装完库后,我们还需要 lxml 模块才能使用 read_xml() 函数。我们可以使用以下命令进行安装。 使用 Python 从 HTML 字符串中提取表格在以下示例中,我们创建了一个简单的 HTML 表格,并将其分配给 html_table 变量。让我们看下面的例子。 示例 - 现在我们将读取上述 HTML 表格。 输出 [ ID Name Branch Result 0 5 Patrick Civil Pass 1 1 Maverick Mechanical Fail 2 4 Peter Computer Science Pass 3 8 Parker Chemical Fail] 解释 - 在上面的代码中,我们使用了 Python 的 pandas 库来解析表示为字符串的 HTML 表格。pd.read_html() 函数用于解析表格并返回一个包含单个 DataFrame 的列表。html_table 变量包含一个 HTML 表格的字符串表示,该表格有四列:ID、Name、Branch 和 Result。该表格有一个标题行和四行数据。在 html_table 变量上调用 pd.read_html() 函数后,生成的 DataFrame 将存储在 df 变量中。然后可以使用 df 变量来访问表格中的数据并根据需要进行操作。 如我们所见,输出是列表形式,只包含一个表格。我们可以使用索引来查看列表中的特定索引。 ![]() 我们还可以检查每列的数据类型,如下所示。 输出 ID int64 Name object Branch object Result object dtype: object 从 URL 获取表格数据我们也可以将 URL 作为参数传递给 read_html() 函数来读取网页上的 HTML 表格。让我们通过以下示例来理解。 示例 - 输出 0 1 2 0 Rank Country Area in sq. km 1 1. Russia 17098242 2 2. Canada 9984670 3 3. United States 9826675 4 4. China 9596961 5 5. Brazil 8514877 6 6. Australia 7741220 7 7. India 3287263 8 8. Argentina 2780400 9 9. Kazakhstan 2724900 10 10. Algeria 2381741 注意 - 网页的内容可能会随时间变化,因此我们可能会得到不同的结果。从文件中提取表格我们也可以从文本文件中读取表格。我们需要将文件路径传递给函数。让我们通过以下示例来理解。 示例 - 输出 [ ID Name Designation Salary 0 5 Peter HR 50000 1 1 Parker Salesperson 38000 2 4 Stark Analyst 85000 3 8 Falcon Software Developer 67000, Roll No. Name Marks 0 10 Natasha 23 1 5 Bruce 40 2 18 Banner 44] 上面的列表包含两个元素。我们可以通过索引来获取每个表格。 输出 ID Name Designation Salary 0 5 Peter HR 50000 1 1 Parker Salesperson 38000 2 4 Stark Analyst 85000 3 8 Falcon Software Developer 67000 输出 ID Name Designation Salary 0 5 Peter HR 50000 1 1 Parker Salesperson 38000 2 4 Stark Analyst 85000 3 8 Falcon Software Developer 67000 结论read_html() 是一个有用且高效的方法,可以从多种源读取 HTML 表格。在执行网络爬虫时非常有用。但是,read_html() 方法无法读取通过 JavaScript 加载的表格。 |
本文将介绍将给定矩阵元素顺时针旋转的代码。为了可视化这个问题,让我们先看一些矩阵旋转的例子。矩阵旋转示例:对于 3 * 3 矩阵输入 1 4 7 2 ...
5 分钟阅读
条形图是可视化和比较不同类别数据的一种流行方式。当处理多个数据系列共同构成一个整体时,堆叠条形图提供了一个引人注目的解决方案。PyGal 是一个用于创建交互式图表的多功能 Python 库,它允许您创建堆叠条形图...
阅读9分钟
简介:在本教程中,我们将讨论 Python 中的列表推导式。Python 以帮助我们编写简洁、易于编写且几乎像英语一样易于阅读的代码而闻名。列表推导式是该语言最独特的特性之一,它允许我们创建...
阅读 6 分钟
Matplotlib 是一个 Python 库,可让您创建确定性、动画和引人入胜的可视化。它用于在 Python 中制作图表,例如条形图、散点图、饼图、直方图、折线图、3D 图等。Matplotlib 库包含有关散点图的信息……
阅读 6 分钟
Python 的内置 ConfigParser 库是基础模块的一部分。该库提供了一个控制台解析器,用于轻松配置由键值对组成的文件。该库支持的全球公认的流行约定是“INI”语法,最常用于 Microsoft 平台。...
7 分钟阅读
银行业和金融业产生了海量与客户交易、账单和付款相关的数据,这些数据可以提供准确的见解和预测,供 AI 模型处理。海量的交易数据帮助了金融行业……
14 分钟阅读
在本教程中,我们将讨论 Python 中的三角余弦 (cos) 函数。我们将讨论可用于在 Python 程序中实现 cos 函数的模块。我们还将学习如何在...中绘制使用 cos 函数的图形。
5 分钟阅读
简介 列表被认为是 Python 编程语言中最灵活的数据结构之一。另一方面,二维列表,或称 2D 列表,通常被称为列表的列表,是一个列表对象,其中每个元素...
阅读9分钟
问题是给定一个整数数组,我们需要找到数组中的第 k 个最小元素,其中 k 是一个小于或等于数组长度的正整数。让我们看下面的示例。示例 - 输入:arr = [7, 4, 6, 3,...
5 分钟阅读
图形用户界面(GUI)是尖端软件包的重要组成部分,它允许客户以直观且对用户友好的方式与软件包进行交互。Python 是一种灵活的编程语言,提供了各种 GUI 框架来构建交互式应用程序。其中,PyQt5 以其流行的...
阅读 4 分钟
我们请求您订阅我们的新闻通讯以获取最新更新。
我们提供所有技术(如 Java 教程、Android、Java 框架)的教程和面试问题
G-13, 2nd Floor, Sec-3, Noida, UP, 201301, India