搜索引擎定义

2025年3月17日 | 阅读 8 分钟

搜索引擎是用于执行网络搜索的软件程序。它们系统地搜索万维网以获取特定信息,尤其是在文本网络搜索查询中。搜索引擎结果页面(SERP)通常用于指搜索结果的列表呈现。

Search Engine Definition

当用户输入查询时,搜索引擎会搜索其网页索引以查找与用户查询匹配的信息。然后,用户可以看到按相关性排序的结果。搜索引擎结果中可能包含指向网站、图片、视频、信息图、论文、研究论文和其他类型文件的链接。一些搜索引擎也从开放目录或数据库中挖掘数据。与由人类编辑的网络目录和社交书签网站不同,搜索引擎通过运行网络爬虫算法来保留实时信息。深度网络(Deep web)是指任何无法被网络搜索引擎索引和搜索的互联网内容。

搜索引擎的历史

1945年,Vannevar Bush在《大西洋月刊》上发表了《As We May Think》。他描述了一个用于查找已发布信息的系统,旨在克服在日益增长的科学著作中心索引中查找信息日益困难的问题。在这篇文章中,他设想了带有类似现代超链接的注释连接的研究图书馆。通过超链接搜索(Hyper Search)和PageRank等算法,链接分析最终将成为搜索引擎的重要组成部分。

搜索引擎的诞生于20世纪90年代

除了WHOIS用户搜索可追溯到1982年,以及最初于1989年推出的Knowbot信息服务多网络用户搜索。最早的互联网搜索引擎在1990年12月Web推出之前就已存在。Archie于1990年9月10日首次亮相,是第一个有详细记载的搜索引擎,它搜索FTP文件等内容文件。在1993年9月之前,万维网是完全手动索引的。在CERN的Web服务器上,有一个由Tim Berners-Lee编辑的网络服务器列表。1992年的一份列表快照尚存,但随着越来越多的Web服务器上线,该中心列表已无法跟上。新服务器在NCSA网站上以“最新消息!”(What's New!)为标题公布。

Search Engine Definition

Archie是第一个搜索内容的互联网搜索引擎(而非用户)。该名称是“archive”(不带“v”)的缩写。它由加拿大魁北克省蒙特利尔市麦吉尔大学的一名计算机科学学生Alan Emtage创立。Archie搜索引擎并未索引这些网站的内容,因为数据量非常小,可以轻松手动搜索。相反,该程序下载了所有公共匿名FTP(文件传输协议)站点上找到的文件目录列表,生成了一个可搜索的文件名数据库。

1998年,Google从一家名为goto.com的初创公司收购了销售搜索词条的概念。这一转变极大地影响了搜索引擎行业,使其从一家苦苦挣扎的公司转变为互联网上最高产的公司之一。在20世纪90年代末互联网投资狂潮中,搜索引擎也被视为最闪耀的明星之一。几家公司在上市时取得了惊人的市场表现,并创下了破纪录的收益。一些公司停止销售其公共搜索引擎的企业独占版本,如Northern Light。在2000年3月达到顶峰的投机驱动的市场繁荣,即互联网泡沫(dot-com bubble),影响了许多搜索引擎公司。

搜索引擎的偏见

在搜索引擎提供的信息以及对该技术的基本假设中,已经发现了多种政治、经济和社会偏见。然而,搜索引擎的构建是为了根据其受欢迎程度和相关性的某种组合来对网站进行排名。这些偏见可能是政治进程(例如,为遵守当地法规而删除搜索结果)和经济及商业进程(例如,在搜索引擎上投放广告的企业也可能在自然搜索结果中更加突出)的直接结果。例如,在法国和德国等禁止否认大屠杀的国家,Google不会显示特定的新纳粹网站。

Search Engine Definition

由于搜索引擎算法经常被设计为消除非主流观点,以支持更“流行”的结果,偏见也可能源于社会进程。主要的搜索引擎索引算法往往比其他国家更倾向于覆盖美国网站。“Google Bombing”的做法是对搜索结果进行商业、社会或政治目的操纵的一种尝试。研究人员已经考察了搜索引擎带来的社会变革,以及像爱尔兰恐怖主义、气候变化否认和阴谋论等争议性主题在搜索结果中的呈现方式。

搜索引擎提交

网站管理员通过在线搜索引擎提交来直接将网站提交给搜索引擎。尽管搜索引擎提交有时被推广为一种推广网站的技术,但在大多数情况下,它是可选的,因为主要搜索引擎使用网络爬虫,这些爬虫最终会在没有帮助的情况下找到网上的大多数网站。它们可以一次提交单个网页,也可以使用站点地图提交整个站点,尽管通常只需要提交网站的主页,因为搜索引擎可以爬取设计良好的网站。剩下的唯一两个原因是添加一个全新的网站而不必等待搜索引擎找到它,以及在进行重大修改后更新现有网站的记录。一些搜索引擎提交工具会从其页面连接到网站,并将网站提交给各种搜索引擎。鉴于外部链接是影响网站排名的最重要的因素之一,这对于提高网站排名很有益。但根据Google的John Mueller的说法,“这可能导致您的网站产生大量不自然的链接”,并对网站排名产生负面影响。

搜索引擎的重要性

搜索引擎是访问互联网上大量信息的关键工具。通过将关键字或短语输入搜索框,它们使用户能够快速轻松地访问相关信息。以下是搜索引擎重要的几个原因:

效率

搜索引擎通过节省消费者在查找所需信息方面的时间和精力,提供即时访问关键信息。

可访问性

搜索引擎使全球各地的人们,无论其地理位置或知识水平如何,都能获取信息。

相关性

搜索引擎通过帮助用户更快地获取所需信息,不断改进其算法,以提供更精确和恰当的搜索结果。

业务增长

搜索引擎极大地驱动了网站流量,这对于希望扩展在线业务和客户群的企业至关重要。

研究

研究人员、科学家和学生受益于搜索引擎,因为它们提供了对学术期刊、研究论文和其他学术资源的访问。

搜索引擎是如何工作的?

搜索引擎如何从数千个可用网站中选择最相关的网站?我们如何在屏幕上看到这些页面?有什么先决条件?

Search Engine Definition

为了执行用户查询,搜索引擎需要三个步骤。

爬取

抓取(Crawling)是发现互联网上新网页的第一步。所有搜索引擎都使用网络爬虫或蜘蛛机器人来跟踪已知网页的链接以发现新网页。它们通过从一个站点爬取到另一个站点来收集数据。收集完数据后,它会被索引。在索引进行的同时,蜘蛛会继续发现新页面。当达到指定的时间间隔或根据获取的数据量时,蜘蛛就会停止抓取。

索引

一旦数据被抓取,它就会被发送到索引(indexing),该索引将数据保存在搜索引擎的数据库中,称为索引。索引的作用是尽快找到与查询相关的信息。此过程可以通过执行以下任何步骤来快速完成:

  • 移除停用词。
  • 列出指向其他页面的链接。
  • 提供有关页面上的图片或嵌入媒体的详细信息。

要出现在搜索结果中,任何网站都必须被索引。当输入查询时,索引结果有时会很快返回,因为它已经保存了一些包含关键字的互联网链接。

排名

最后一步是在SERP上对结果进行排名。搜索引擎有自己的列出搜索结果的标准。这些信号或标准应该对公众可见。排名算法决定了结果页面上网页链接的顺序。最常见的问题之一是所有搜索引擎是否产生相同的结果,答案是“有时”。每个搜索引擎都有一个用于进行网络搜索的算法。这些搜索还会受到您的位置、其他人对确切词组的偏好、您以前的搜索等标准的影响。因此,不同的搜索引擎会产生不同的结果。

顶级搜索引擎

搜索引擎是帮助人们在互联网上查找信息的工具。它们旨在帮助用户发现网页、图片、视频、新闻报道和其他类型的在线内容。

Search Engine Definition

以下是一些搜索引擎示例:

Bing(2020年10月更名为Microsoft Bing)

它几乎和Google搜索一样普遍。它是Windows PC上的默认搜索引擎。Google和Bing在搜索结果方面存在一些相似之处,例如图片、视频、地点、地图和新闻。尽管微软努力使其像Google一样成功,但目前它仅占搜索引擎总市场份额的2-3%。

Yahoo

雅虎曾是访问量最大的网站之一。它目前由Bing提供服务。它也是美国Firefox用户的默认设置。

Baidu

这是中国一个著名的搜索引擎。尽管其流行度不高,但Alexa报告称其全球市场份额正在增长。它在全球范围内可用,但仅限中文。

Yandex

Yandex.ru是俄罗斯、乌克兰和土耳其一个著名的搜索引擎。它的名字来源于“Yet Another Indexer”(另一个索引器)。它占整个搜索引擎市场份额不到1%。

DuckDuckGo

这个不太受欢迎的搜索引擎占市场份额约0.45%。它与Bing和Yahoo等小型搜索引擎是竞争对手。与大多数搜索引擎不同,它不维护自己的搜索索引,而是依赖于多个来源。换句话说,它缺乏自己的数据,并依赖于Yahoo、Bing等第三方网站。但它与其他搜索引擎的区别在于,它更加简洁,并且没有垃圾广告。

结论

完美的搜索引擎并不存在。Google的算法可能比其他算法好,但这并不保证它总是能产生最好的结果。随着互联网上海量信息的可用性,搜索引擎现在已成为个人和专业用途的重要工具,使用户能够通过几次点击快速获取所需信息。一些新兴的搜索引擎一直在争夺最受欢迎搜索引擎的称号。您可以亲自尝试这些搜索引擎,然后选择最能为您提供最佳查询结果的那个。


下一个主题鼻窦定义