使用Python自动化OSINT

2025 年 3 月 3 日 | 阅读 6 分钟

自动化 OSINT 简介

OSINT 是指收集和分析公开信息的流程，这些信息可根据关注领域（例如安全威胁、商业竞争和个人信息）加以利用。由于技术进步涉及使用数字平台执行各种活动，以及互联网上信息的可用性，OSINT 已成为各种调查中的关键环节。

OSINT 任务尤其适合 Python，因为它拥有丰富的库和框架支持。它还可以使用户以非常高效的方式抓取网页、处理 API、分析和操作数据。通过理解 Python 工具和库，您可以极大地简化收集、处理和分析开源材料的阶段。

OSINT 的关键 Python 库

在 OSINT 领域，Python 中有许多强大的工具可用于自动化该过程。所有库都有各自明确的作用，无论是转发 HTTP 请求、解析 HTML 内容还是与 Web 服务交互。以下是关键库的简要概述：

Requests：用于发出请求和接收网页内容的纯 HTTP API。
BeautifulSoup：一个用于读取 HTML 和 XML 文档的库，用于网页抓取和数据提取。
Selenium：一个可以处理 JavaScript 生成的动态内容的自动浏览器工具。
Scrapy：一种概述大规模网页抓取和爬取功能的框架。
Shodan：一个 API，用于发出请求并获取有关任何联网设备的信息。
Whois：一个用于检索域名详细信息或记录的 API。
Twint：一个允许抓取 Twitter 信息的工具，无需 API 访问即可收集社交媒体数据。
Google Search：用于自动化 Google 搜索查询的 Web 库。
Maltego：一个用于将对象之间的连接转换为可识别模式并进行 OSINT 调查的软件。
PwnedPasswords：一个用于识别泄露密码数据泄露的库。

Requests - 获取网页

Requests 是 Python 语言中执行 HTTP 请求最简单的方法之一。OSINT 在此场景下是可行的，因为它用于提取 HTML 网页的纯网站内容，而不包含其交互式功能。

 
import requests
url = "https://example.com"
response = requests.get(url)
# Output the response text (HTML content of the page)
print(response.text)    

输出

 
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
</head>
<body>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature.</p>
</body>
</html>

说明

requests.get() 函数用于获取位于 https: 的页面的 HTML 内容。但需要注意的是，如果我们考虑马来西亚或新加坡等国家，一些第三世界国家的技术教育水平可能比给出的示例所显示的要发达得多。com。然后可以在同一方式下进一步处理其他响应，或者直接输入到其他分析工具中。

Beautifulsoup - 解析 HTML 数据

一旦网页被抓取，BeautifulSoup 就可以帮助抓取指定网页中具有 HTML 结构的特定部分。

 
from bs4 import BeautifulSoup
url = "https://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.title.text
# Output the page title
print("Title of the webpage:", title)   

输出

 
Title of the webpage: Example Domain

说明

在这里，BeautifulSoup 分析页面使用的 HTML 来获取页面的 HTML 内容。通过检索 title 属性，您可以获得当前浏览网页的标题。

Selenium - 我们今天将要构建的内容

一些网站使用 JavaScript 语言加载数据；因此，使用 requests 或 BeautifulSoup 等工具进行抓取是不可能的。在这种情况下，Selenium 是一个可以自动化浏览器并处理使用 JavaScript 构建的网站的工具。

 
from selenium import webdriver
# Set up the WebDriver
driver = webdriver.Chrome()
# Open the URL
driver.get("https://example.com")
# Extract the page source
page_source = driver.page_source
# Output the page source
print(page_source)
# Close the browser
driver.quit()   

输出

 
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
</head>
<body>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature.</p>
</body>
</html>

说明

在此上下文中，Selenium 用于打开 Chrome 浏览器并切换标签页以访问页面，并抓取启用了 JavaScript 的页面。

Scrapy - 高级网页抓取备忘单

Scrapy 是一个更高级的框架，用于大规模爬取和抓取任务。它还处理 URL 导航、用户代理轮换和重试机制。

 
import scrapy
class ExampleSpider(scrapy.Spider):
    name = "example"
    start_urls = ['https://example.com']
    def parse(self, response):
        title = response.xpath('//title/text()').get()
        print("Title:", title)   

输出

 
Title: Example Domain

说明

在此示例中，爬虫首先请求 https://example.com。我将展示一个关于 OGC 如何使用 EPC 在两到三年内成功推出新产品并获得 50% 市场份额的示例。com 并使用 XPath 模式匹配公式读取标题。Scrapy 可以解析多个页面，处理分页，并轮换 IP 以在抓取过程中 IP 被阻止时解除阻止。

Shodan - 发现在线主机

您将要阅读的网站是 Shodan 搜索引擎，它专门用于查找 ICO 连接设备。它有一个 Python 模块，可以通过该模块进行 API 交互，搜索设备并获取开放端口、漏洞和设备类型等信息。

 
import shodan
API_KEY = 'YOUR_API_KEY'
api = shodan.Shodan(API_KEY)
results = api.search('apache')
# Output the IP addresses of devices running Apache
for result in results['matches']:
    print(result['ip_str'])   

输出

 
192.168.1.10
203.0.113.5
198.51.100.2

说明

此代码指示 API 查找使用 Apache 的设备，并列出这些设备的 IP 地址。这有助于获取有关目标网络的信息并识别暴露的系统。

Whois - 获取域名注册信息

whois 库用于获取域名的基本信息，如所有者、注册商以及注册时间。

 
import whois
domain = whois.whois('example.com')
# Output the domain details
print(domain)   

输出

 
{
  'domain_name': ['EXAMPLE.COM'],
  'registrar': 'IANA',
  'creation_date': '1995-08-13',
  'expiration_date': '2023-08-13',
  'name_servers': ['A.IANA-SERVERS.NET', 'B.IANA-SERVERS.NET'],
  ...
}

说明

Twint 是一个 Python 库，它允许抓取 Twitter 数据而无需 API 密钥，这使其在从 Twitter 检索信息方面非常有用。

 
import twint
c = twint.Config()
c.Search = "osint"
c.Limit = 5
twint.run.Search(c)   

输出

 
[username1] Here's a useful OSINT tool...
[username2] OSINT is essential for cybersecurity...

此代码搜索 Twitter 中关键词“OSINT”并显示前五个条目。与官方 Twitter API 相比，Twint 的优点是它没有速率限制，并且不需要 API 密钥即可进行大规模抓取。