1500字范文 > js文件格式_robots文件只能放在网站根目录吗？

js文件格式_robots文件只能放在网站根目录吗？

时间：2023-11-21 02:46:07

要使得网站能被百度收录特定页面，robots文件发挥着重要作用，甚至一定层面上影响着网站优化和SEO策略。那么robots文件是不是一定要放在网站的根目录下面呢？

【Robots文件的作用】

一般搜索引擎蜘蛛会优先访问网站内部的robots文件，根据文件内设置的规则不再去抓取那些你像要屏蔽的网页网址。

1、保护我们网站的隐私内容，避免蜘蛛爬取收录我们不想展现给别人看的页面，表面透露隐私内容。例如:网站管理后台、用户数据、管理员信息等。

2、我们可以利用好robots文件来做好网站的SEO优化工作，比如清理网站死链的时候可以把死链接写进robots文件，再或者可以将网站地图写进robots方便爬虫一次性抓取网站内容等等。

3、可以减轻服务器压力。我们通过Robots协议可以让蜘蛛只抓取一部分页面，避免蜘蛛胡乱抓取一些没用的页面，占用服务器资源。

4、正确的Robots协议会提升整站质量，促使快速收录排名，从而提高网站权重。配图：robots文件只能放在网站根目录吗？

Robots文件知多少

robots其实我们可以理解为是网站和搜索引擎爬虫之间的协议，用txt格式文本告知对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。比如当百度搜索引擎蜘蛛访问某站点时，蜘蛛会首先检查该站点根目录下是否存在robots.txt，如果存在，蜘蛛搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛其实都能够访问网站上所有没有被口令保护的页面。Robots文件格式:

User-agent:

User-agent的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为，则该协议对任何机器人均有效，在"robots.txt"文件中，"User-agent:"这样的记录只能有一条。

Disallow:

Disallow的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被robot访问到。例如"Disallow:/help"对/help.html 和/help/index.html都不允许搜索引擎访问，而"Disallow:/help/"则允许robot访问/help.html，而不能访问/help/index.html。任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。

Allow:

该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL是允许robot访问的。例如"Allow:/hibaidu"允许robots访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。

需要特别注意的是Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

"*"和"$"：

robots支持使用通配符"*"和"$"来模糊匹配url：

"$" 匹配行结束符。

"*" 匹配0或多个任意字符。细节注意点：在书写robots时候，应用英文状态下的冒号，并且冒号后面必须有一个英文状态下的空格。