使用Python进行Google搜索分析

2025年1月5日 | 阅读 5 分钟

本文将指导您完成使用 Python 编程语言分析 Google 搜索的后续步骤。

确实,Google 不会透露其搜索量,但普遍估计每小时有 2.28 亿次搜索,或者说。据估计,每天进行 80 亿次搜索。哇,这个数字太大了,难以想象它可能意味着什么。让我们借助 Python 来分析不同类型的搜索查询的 Google 搜索。

通过向 Google 搜索 API 发送请求并分析结果集,也可以抓取 Google 搜索结果。搜索结果包含标题和摘要,它们与链接一起构成了分析搜索数据的基础。

以下是您可以通过 Python 进行 Google 搜索分析的步骤:

  • 设置 API 访问:要使用 Google 自定义搜索 JSON API,需要 API 密钥和自定义搜索引擎 ID (CX)。
  • 发出 API 请求:使用 API 密钥和自定义搜索引擎 ID,可以从 Google 自定义搜索 JSON API 获取搜索结果。
  • 解析搜索结果:解析 JSON 响应,以提取搜索结果中的链接、摘要和标题。
  • 分析数据:检查和分析搜索结果,识别热门词汇,发现模式,并对发现结果进行分类。
  • 可视化数据:根据分析结果创建可视化图表,以更好地了解搜索结果中的趋势和模式。

什么是 Pytrends?

Python 用户可以使用 Pytrends,这是一个非官方的 Google Trends API。基于不同的地区和语言,它可以帮助评估和编译与特定主题或问题相关的 Google 上最受欢迎的结果列表。

如何安装 Pytrends?

在系统上安装此 API 是使用它的先决条件。使用命令 pip install pytrends 可以轻松安装。

代码片段

连接到 Google

现在已经导入了必要的 Python 模块,让我们开始评估 Google 搜索趋势的工作。创建数据框的第一步是导入 pandas。为了获取 Google 的热门话题,我们必须先建立与 Google 的连接。为此,请从 pytrends.request 包中导入 TrendReq 函数。还将导入 Matplotlib 以便查看数据。

代码片段

构建载荷 (Payload)

现在,我们将构建一个数据框,其中包含人们搜索“云计算”的前十大国家。将使用 build_payload 函数,该函数允许您保存要搜索的术语列表。此外,您还可以在其中定义要查询数据的类别和时间范围。

代码片段

随时间推移的兴趣度

根据 create payload 方法中选择的时间范围,interest_over_time() 函数将提供所提供术语搜索最热门时间段的历史索引数据。

代码片段

历史小时兴趣度

get_historical_interest() 函数返回给定关键字搜索高峰时段的历史索引小时数据。您还可以为需要历史数据的时间段指定不同的时间段标准,例如 month_start、year_start、day_start、year_end、month_end、hour_start、day_end 和 hour_end。

代码片段

各地区兴趣度

接下来是 interest_by_region 方法;这将显示关键字在各个地区的表现。结果将显示在 0 到 100 的范围内,其中 100 表示搜索次数最多的国家,0 表示搜索次数最少或数据不足的国家。

代码片段

观察

根据 build_payload 函数中指定的时间段,运行上述代码后您将获得一个类似于下面输出的输出。

接下来,可以使用条形图来显示上述数据。

代码片段

输出

Google Search Analysis with Python

热门图表

我们可以使用这种策略获取年度最热门搜索。现在让我们研究一下 2020 年最热门的搜索。

代码片段

观察

根据上述结果,“新冠病毒”是 2020 年搜索次数最多的主题,其次是其他主题。

相关问题

如果一个人在 Google 上搜索某个问题的信息,他们很可能会搜索与该问题相关的其他查询。我们将这些称为关联查询。让我们查找与“云计算”相关的热门问题列表。

代码片段

以下是一些与云计算相关的最热门 Google 搜索。

关键词创意

您可以借助 recommendations() 函数来调查公众正在搜索的内容。它提供了一个更推荐的术语列表,可用于优化 Google 趋势搜索。

代码片段

输出

Google Search Analysis with Python

不要错过从数据革命中获益的机会!通过利用数据,每个行业都在达到新的高度。发展您的技能,加入 21 世纪最热门的潮流。