使用 Python 进行 Netflix 数据分析

2025年3月17日 | 阅读13分钟

数据分析是一种支持企业决策的有效技术。在今天的教程中，我们将使用 Python 调查 Netflix 信息集并发现有趣的结果。

Netflix 是全球最大、最受欢迎的在线服务之一，为客户提供庞大的电视剧和电影库。该网站最近积累了大量的追随者，其受欢迎程度似乎很强劲。在本教程中，我们将演示如何使用 Python 对我们从 Kaggle 获取的 Netflix 信息集进行探索性信息分析 (EDA)。为了可视化和分析信息，我们将使用各种 Python 包，例如 Pandas、Seaborn、Matplotlib 和 Plotly。

Netflix 电影数据集

在开始本课程之前，您需要准备一些东西。首先要了解 Python 的内置数据结构，特别是列表和字典。有关更多详细信息，请参阅 Python 中的字典以及 Python 中的列表和元组数据结构。

您需要的第二项是功能齐全的 Python 环境。任何加载了 Python 3 的界面都可以让您跟随。如果您想看到更漂亮的结果，特别是对于您将使用的大型 NBA 数据集，请在 Jupyter 笔记本中运行代码示例。在开始本课程之前，您需要准备一些东西。第一步是理解 Python 的内置数据结构，尤其是列表和字典。有关更多信息，请查阅 Python 的字典、列表和多重结构部分。

您需要的第二项是功能齐全的 Python 环境。您可以在任何加载了 Python 3 的界面上跟随。如果您想看到更好的结果，特别是对于您将使用的大型 Netflix 电影数据集，请在 Jupyter 笔记本中运行代码示例。

Netflix 电影表（我们将在 ML 模型训练和测试中使用的示例数据集）

s3129	电视节目	法国	1 月 14 日，	2018	TV-Y	1 季
s3131	电影	波兰	1 月 14 日，	2019	TV-MA	132 分钟
s3132	电影	USA	1 月 12 日，	2018	TV-14	56 分钟
s3133	电影	印度	1 月 12 日，	2019	TV-MA	128 分钟
s3134	电视节目	USA	1 月 11 日，	2020	TV-14	1 季
s3135	电视节目	英国	1 月 11 日，	2019	TV-MA	1 季
s3136	电视节目	USA	1 月 11 日，	2020	TV-Y7	4 季
s3137	电视节目	印度	1 月 11 日，	2020	TV-MA	1 季
s3138	电视节目	USA	1 月 11 日，	2020	TV-MA	1 季
s3139	电影	英国	1 月 11 日，	2014	R	119 分钟
s3141	电视节目	澳大利亚	1 月 11 日，	2020	TV-Y	2 季
s3141	电视节目	法国	1 月 11 日，	2020	TV-MA	1 季
s3142	电影	USA	1 月 9 日，	2020	TV-MA	97 分钟
s3143	电视节目	USA	1 月 8 日，	2020	TV-MA	1 季
s3144	电影	USA	1 月 7 日，	2017	R	92 分钟
s3145	电影	西班牙	1 月 7 日，	2020	TV-MA	112 分钟
s3146	电视节目	英国	1 月 4 日，	2020	TV-14	1 季
s3147	电影	墨西哥	1 月 3 日，	2020	TV-14	91 分钟
s3148	电视节目	加拿大	1 月 3 日，	2019	TV-PG	3 季
s3149	电影	印度	1 月 2 日，	2017	TV-14	129 分钟
s3151	电视节目	USA	1 月 2 日，	2020	TV-MA	1 季
s3151	电视节目	比利时	1 月 2 日，	2019	TV-MA	1 季
s3155	电影	英国	1 月 1 日，	2014	TV-PG	115 分钟
s3156	电视节目	日本	1 月 1 日，	2018	TV-PG	1 季
s3158	电影	USA	1 月 1 日，	2017	TV-Y	78 分钟

导入库并加载信息

源代码片段

import pandas as pdd
import seaborn as sbn #importing our visualization library
import matplotlib.pyplot as plot
df1 = pdd.read__csv('/kaggle/inpput/netflix-shows/netflix__titles.csv')
df1.head()

信息集的前五行，包含 12 列，是 2020 年 9 月 8 日上传的电视节目和电影。我们可以从类型列中识别它是电视节目还是电影。

现在信息已经清理完毕，让我们通过可视化进一步调查它。

注意：您是否知道 Python 社区中有多个包管理器，并且不确定选择哪一个？pip 和 conda 都是不错的选择，各有优点。
如果您主要使用 Python 进行数据科学任务，Conda 可能是更好的选择。conda 生态系统中有两个主要选项：
如果您想快速建立一个可靠的数据科学环境，并且不介意收集 500 MB 的数据，请查看 Anaconda 包。
如果您想要更简单的设置，请查看《在 Windows 上为人工智能设置 Python》中 Miniconda 的安装。

源代码片段

输出

show_id	0
type	0
title	0
导演	2634
演员	825
国家	831
date_added	10
release_year	0
评级	4
duration	3
listed_in	0
描述	0
dtype:int64	3

解释： 您的数据集的列与每一列包含的数据类型一起列出。这里显示了 int64 和 object 数据类型。Pandas 使用 NumPy 库处理这些类型。稍后将向您介绍更复杂的分类信息类型，该类型由 pandas Python 模块直接实现。

对象数据类型是一种独特的数据类型。根据 pandas Cookbook，对象数据类型是“pandas 无法识别为任何其他特定类型的数据的包罗万象的类型。” 实际上，它通常表示该列的所有值都是字符串。

对象数据类型允许您存储任何 Python 对象，但您应该了解其局限性。对象字段中的异常值可能会对 pandas 的性能以及与其他库协同工作的能力产生负面影响。有关更多详细信息，请查看公司的入门手册。

。以下列的空值需要清理：

导演？2,634 个空值

演员？825 个空值
国家？831 个空值
date__added？11 个空值
评级？4 个空值
持续时间？3 个空值

注意：您也可以使用网络浏览器下载 CSV 文件。
但是使用下载脚本有许多好处：
您可以识别数据的来源。
下载可以随时重复！如果数据经常更新，这非常有用。
17MB 的 CSV 文件不需要分发给您的同事。通常，共享下载脚本就足够了。

源代码片段

#Since Netflix was founded in the United States and all of its shows are available on Netflix US, we changed all of the Nan values in the nation column to USA. Therefore, to save our Information, we only altered its values rather than removing the entire column.

df1['country'].replace(npp.nan, 'USA',inpplace  = True)
df1['director'].replace(npp.nan, 'No Director',inpplace = True)
df1['cast'].replace(npp.nan, 'No Cast',inpplace = True)
df1['country'].replace(npp.nan, 'Not Specify',inpplace = True)
df1.isnull().sum()

解释： 我们可以用两种方式回应“国家”列。首先，由于 Netflix 成立于美国，我们可以用“USA”替换所有 NaN 值。由于这些电影的国家/地区未在信息中注明，我们也可以用“未指定”替换 NaN 值。我们可以用“无导演”和“无演员”分别替换“导演”和“演员”等列中的缺失值。通过替换这些列中的值而不是删除它们，我们可以保留我们的信息。

由于其他类别（如添加日期、持续时间、词干和评级）的值计数缺失值非常少，我们将从信息集中删除它们。

源代码片段

df1 = df1.dropna()
df1.isnull().sum()
df1['rating'].value__counts()

输出

剧情片、国际电影	462
纪录片	449
单口喜剧	444
喜剧、剧情片、国际电影	274
剧情片、独立电影、国际电影	242
犯罪电视节目、国际电视节目、科幻与奇幻电视节目	11
国际电视节目、恐怖电视节目、科幻与奇幻电视节目	11
犯罪电视节目、儿童电视节目	12
恐怖电影、国际电影、科幻与奇幻	13
邪典电影、剧情片、惊悚片	14

解释： 结果显示“listed__in”列中有 461 个不同的值。“纪录片”值出现最频繁，出现 299 次，其次是“单口喜剧”出现 273 次，然后是“剧情片、国际电影”出现 248 次。最不频繁的数字每个只出现一次。

如您所见，我们的评分列中只有 11 条信息必须包含在内。您可以替换它们或删除它们。由于 TV-MA 是最常用的评分，因此所有这些 NaN 值都可以替换为 TV-MA。

数据分析

源代码片段

sbn.counterplot(x = 'kind',info = df1) # looking at kind of Films and TELEVISION shows

输出

解释： 它显示了信息集中包含的电影和电视剧的数量。该图表明信息集中包含的电影多于电视节目。

源代码片段

plot.figure(figure size = (12, 8))
sbn.countplot(x = 'rating',info = df1)

输出

解释： 第二个输出显示了“df1”信息框中“评分”列的计数图。“评分”列显示了每个不同值的数量。该图表明 TV-MA 是信息集中总体评分最高的，其次是 TV-14 和 TV-PG。从那里，我们构建了一个简单的计数图，并通过进行微小调整对其进行迭代。对条形图顺序的更改和分组计数图的添加是我们对图的首次样式设置课程。从那里，您发现了如何使用颜色来装饰图，包括有条件地为条形图着色。然后您发现了如何通过包含值标签来进一步修改图。

源代码片段

plot.figure(figure size = (12,8))
sbn.countplot(x = 'rating',info = df1,hue = 'kind')

输出

解释： 第三个输出由“df1”信息框中“评分”列的计数图组成，颜色调整为“类型”列。此图表显示了“评分”列中每个不同值的频率，按内容类型（例如电影或电视节目）细分。通过此图，我们可以观察电影评分分布和电视剧评分分布的不同之处。我们可以观察到，虽然 PG-13 评分在电影中比在电视剧中更普遍，但电视剧更有可能获得 TV-MA 分类。

源代码片段

plot.figure(figure size = (12,6))
df1[df1["kind"] = = "Movie"]["release__year"].value__counts()[:20].plot(kind = "bar",colour = "Red")
plot.title("Freq of Films which were released in different years and are available on Netflix")

输出

解释： 此条形图显示了不同年份发布并可在 Netflix 上观看的电影的频率。该图显示了信息集中电影出现次数最多的 20 年，每个年份的电影数量显示在 y 轴上。“各种年份发布并可在 Netflix 上观看的电影的频率”是图表的标题，以红色突出显示。在比较数据集时，当一个变量发生变化时，会使用多个条形图。将其转换为堆叠区域条形图很简单，其中每个子组显示在另一个之上。通过更改条形图的位置和厚度，可以绘制它。

源代码片段

plot.figure(figuresize = (12,6))
df1[df1["kind"] = = "TELEVISION Show"]["release__year"].value__counts()[:20].plot(kind = "bar",colour = "Blue")
plot.title("Frequency of TELEVISION shows which were released in different years and are available on Netflix")

输出

与上面的输出类似，此输出显示了随着时间推移发布并在 Netflix 上可用的电视节目的频率。

源代码片段

plot.figure(figuresize = (12,6))
df1[df1["kind"] = = "Movie"]["listed__in"].value__counts()[:11].plot(kind = "barh",colour = "black")
plot.title("Top 11 Category of Films",size = 18)

输出

源代码片段

plot.figure(figuresize = (12,6))
df1[df1["kind"] = = "TELEVISION Show"]["listed__in"].value__counts()[:11].plot(kind = "barh",colour = "brown")
plot.title("Top 11 Category of TELEVISION Shows",size = 18)

输出

这些水平条形图显示了前 10 个电影和电视节目类别。