学习 NumPy 和 Pandas 的最佳资源

2024 年 8 月 29 日 | 阅读 6 分钟

NumPy 和 Pandas 简介

NumPy

NumPy 是用于科学计算的核心 Python 库之一。该库以其动态编程功能而闻名,包括高级语法、对各种硬件和计算设备的兼容性、数值计算实用程序、Python 的多功能性、编译代码的效率等等。NumPy 是数据科学家必不可少的 Python 包。

Pandas

Pandas 是一个提供数据分析功能的 Python 库。您可以使用此库修改数据以获取理解。Pandas 由 Wes McKinney 设计,最初旨在对财务记录进行统计分析;自 2009 年发布以来,Pandas 作为数据分析工具越来越受欢迎。

您可以使用 Pandas 从 Excel 等来源导入数据。Pandas 使您能够为分析准备数据。“清理”数据,有时也称为“数据整理”或“数据清洗”,是指在处理和从信息中提取任何见解和理解之前,删除不准确数据的过程。干净可靠的数据至关重要。否则,您的分析方法的结果充其量会被扭曲,最坏的情况会毫无意义。

在处理数据科学任务时,您可能会使用 Jupyter Notebook 软件。使用 Jupyter Notebook,您可以清理和修改数据。您可以使用它来执行统计建模和机器学习等活动。您可以像代码编辑器一样在其中输入程序并执行它。

学习 NumPy 的资源

Python NumPy 教程 - 通过示例学习 NumPy 数组

在这个精心编译的 NumPy 课程中,您将学习 NumPy 的所有功能。本课程涵盖 NumPy 的基本数据结构,即多维 NumPy 数组,其中教授了如何使用 NumPy 代替列表进行多维数组操作,NumPy 数组与列表,NumPy 在 Python 中如此重要的原因,NumPy 独特的方法等。本教程中的示例代码在每个主题之后都演示了使用 NumPy 数组优于列表的好处。

使用 NumPy 和 Python 进行线性回归 [Coursera 上的一个项目]

如果您正在寻找一个提供实践经验的在线课程,并提供练习,让您将 NumPy 与理论理解结合使用,那么本课程非常适合您。Coursera 的这个引导项目巧妙地设计用于教授您机器学习算法线性回归,同时让您体验 NumPy 和 Python。

奇怪的是,在这个 1.5 小时的在线项目中,您不会使用任何著名的预定义机器学习库,包括最常用的 scikit-learn 和 stats 模型,所有这些库都带有现成的算法。

为了更深入地理解基础知识,该项目的目的是让您自己开发机器学习模型的所有机制,例如梯度下降和相对更简单的线性回归,以教授您机器学习库如何在后端工作。

本课程以 Coursera 的实践编程和项目平台 Rhyme 为基础。在 Rhyme 上,您将有机会直接在浏览器中进行项目。您将立即访问已设置好的云工作站,这些工作站已拥有完成项目所需的所有数据和设备。

数据科学 NumPy 完整课程

本课程的三个小时视频内容足以教授 NumPy 库的初级到中级用户。如果您想成为数据科学家或学习处理 N 维数据,这门简单易懂的课程非常适合您。唯一的先决条件是您熟悉 Python 编程语言的基础知识。

您首先构建简单的 NumPy 数组,理解数组特性,并学习 NumPy 索引和切片。随后,您将使用数组操作,例如数组广播,来解决对不同形状的各种数组进行数学运算的挑战。

您将对数组使用算术函数。了解添加图像滤镜和独热编码,它将转换图像的颜色。

使用 Python NumPy 做更多事情 [Udemy 课程]

本教程提供超过 4 小时的视频内容;本课程是深入学习 NumPy 库的绝佳方式。完成本课程后,您将更多地了解 Python 中的数组,包括为什么我们应该使用 NumPy 而不是标准 Python 脚本进行数组操作。它包含各种知识测试测验。

您将从学习数组的基础知识开始,包括它们作为数据容器的类型、查看数组的方法以及对 2D 和 3D 数组进行数组索引和切片的方法。

您还可以评估在 Python 列表和 NumPy 数组上执行相似功能的性能。您将学习数组广播并探索如何使用各种 NumPy 技术执行特定的数组。

使用 NumPy 处理多维数据

为了处理复杂数据,您必须培养处理多维数据的能力。在将数据放入机器学习算法或可视化数据之前,它们需要采用适当的数字形式。

本课程将首先介绍多维数组的生成、打印和应用数学运算的基础知识。您将发现如何使用 NumPy 编辑图像、索引数组以及检索数组中的特定项。

您随后将对各种形状的数组执行某些功能。

学习 Pandas 的资源

面向数据科学初学者的 Pandas Python 库

一个名为“面向数据科学初学者的 Pandas Python 库”的一小时视频教程是为从未接触过 Pandas 并渴望了解其语法的大学生设计的。该项目提供了各种问题及其答案,以激励学生练习使用 Pandas。

完成此任务后,学习者将掌握 Pandas 的基础知识。为了最大限度地发挥数据的价值,他们也将准备好深入了解数据、清理数据并进行一些简单的准备工作。

使用 Python 分析数据 [edX 课程]

本课程教授您如何使用各种数据分析工具。其中包括 SciPy(一个用于数学、科学和技术的工具环境);Pandas;NumPy(“Numerical Python”的缩写,一个用于数学计算的 Python 模块);以及 scikit-learn(“Scientific Python”的缩写,一个用于机器学习的 Python 包)。

Python 数据科学入门 [免费 Coursera 课程]

密歇根大学的另一门优秀课程通过 Coursera 平台提供,旨在教授用户如何使用 NumPy 和 Pandas 库进行数学计算。

该课程超过 30 小时的讲座和信息面向对 Python 编程语言有一定了解的初级程序员。

该课程将从数据分析师和 Pandas 将使用的少量 Python 技术和操作开始,lambda 函数,例如日期和时间以及正则表达式。

之后,转到 Pandas 并了解如何抽象 Series 和 DataFrames,使用索引,以及处理缺失值。您还将学习如何创建摘要报告和合并数据帧。

中级 Pandas Python 数据科学库

理解复杂的功能工程技术来处理数据集中的缺失值,如何过滤、选择和拆分数据以进行更简单的处理,以及各种类型的连接、过滤和分箱数据功能,将有助于学习数据科学的 Pandas Python 库入门课程。

该项目适用于已经熟悉 Pandas 数据分析但希望通过掌握更复杂的过程来充分利用其潜力的用户。项目结束时,学生将能够使用 Pandas 管理结构化数据。

使用 Python 的 Pandas [Udemy 免费课程]

本课程教授您如何分组和连接数据,以及处理高度复杂的数据等等,推荐给那些至少掌握 Python 编程语言基础知识并希望深入研究 Pandas 库并学习其一些高级功能的人。

数据帧和系列是 Pandas 中两个最基本的操作。除了了解它们,了解何时在您的工作中使用它们也至关重要。然后探索日期范围、数据检查和数据帧切片。

此外,您将学习从各种文件类型导入数据、处理文本数据、合并数据帧和数据可视化。