使用 Python 抓取最受欢迎的新闻和推文

2024 年 8 月 29 日 | 4 分钟阅读

许多网站会提供任何技术的最新新闻,文章可以通过收到的评论数量进行评估。如果新闻是关于加密货币的,并且文章来自 cointelegraph.com,我们可以轻松地计算并将每条新闻存储在 MongoDB 集合中。

所需模块

  • Tweepy:Tweepy 是官方 Twitter API 的 Python 客户端。使用 pip 安装它,命令如下:
  • MongoClient:借助 MongoClient 类,您的程序可以成功连接到 MongoDB 服务器。使用 pip 安装它,命令如下:
  • Pyshorteners:Pyshorteners 用于以编程方式缩短、品牌化、分发或获取 URL 的信息。请按照以下方法安装:

认证

要通过 Twitter API 检索推文,您必须使用您的 Twitter 账户注册一个应用。为此,请按照以下步骤操作:

  • 访问此网站 https://apps.twitter.com/,然后选择“创建新应用”按钮。
  • 填写应用程序的信息。回调 URL 框是可选的。
  • 应用创建后,您将被导向应用页面。
  • 应打开“密钥和访问令牌”选项卡。
  • 复制并粘贴 Consumer Key、Consumer Secret、Access Token 和 Access Token Secret 到下面的代码中。

代码

输出

Today's date: 2023-07-18
Bitcoin Hits All-Time High -- 10
Ethereum Surges in Value .. 8
New Blockchain Startup Raises $10 Million in Funding .. 6
Impactful News of the Day
Bitcoin Hits All-Time High - https://bit.ly/2X1x51V
Ethereum Surges in Value - https://bit.ly/2T83xyS
New Blockchain Startup Raises $10 Million in Funding - https://bit.ly/3czxVKb
#bitcoin #altcoins #fintech #blockchain #investor #investment #cryptocurrency
Tweet posted successfully!

说明

在连接到 MongoDB 数据库后,首先从集合中检索基于当前日期的评论最多的前三条新闻文章。它会提取标题并使用 HTML 解析器存储相关的 URL。

然后,代码使用 Bitly API 缩短每篇新闻文章检索到的 URL。这有助于将推文保持在 Twitter 的字符限制之内。

将新闻标题和评论数量添加到缩短的 URL 中,以创建推文消息。推文消息还包含与新闻主题相关的标签。

然后,代码使用提供的凭据登录 Twitter API。使用 Tweepy 库将创建的推文消息发布到 Twitter。

推文成功发布后,代码会将有关已推文新闻的详细信息(例如标题、评论数量、缩短的 URL 和原始 URL)保存在另一个 MongoDB 集合中。这使得将来可以检查和评估已推文的新闻。

该代码展示了一个工作流程,可用于查找热门新闻、编写简短的推文消息并将其发布到 Twitter,同时保留相关数据以供进一步研究。