SEO Robots.txt

2024年12月16日 | 阅读需要 1 分钟

robots 排除协议 (REP) 或 Robots.txt 是一个文本文件,用于告诉搜索引擎机器人如何索引您网站上的页面,即您希望抓取的页面和您不希望抓取的页面。它被上传到根目录并在网站的 html 代码中链接。

Robots.txt 文件结构

Robots.txt 具有非常简单和灵活的结构。 其基本语法如下所示

"User-agent" 代表搜索引擎机器人,"disallow" 列出不应被索引的页面。 您还可以在 # 符号后添加注释,如下所示

# 不允许用户代理查看 /temp 目录。

常用 Robots.txt 文件

上面的 robots.txt 表示所有网络爬虫都被允许抓取或索引整个站点。

上面的 robots.txt 设置用于阻止所有网络爬虫索引整个站点。

上面的 robots.txt 设置用于阻止特定机器人访问站点。

上面的 robots.txt 设置用于阻止特定的网络爬虫抓取特定的文件夹。

上面的 robots.txt 设置用于阻止特定的网络爬虫抓取特定的网页。

下一个主题SEO 面试问题