1500字范文 > 如何编写和优化WordPress网站的Robots.txt

如何编写和优化WordPress网站的Robots.txt

时间：2020-05-22 21:52:20

要知道WordPress robots.txt文件中的”Disallow”页面头部的命令和元描述noindex功能不完全相同。robots.txt除了网站文件（如图片和文档），它将阻止抓取，但不一定是索引。如果搜索引擎从其他地方链接，它们仍然可以索引你”不允许爬取”的页面。

因此，Prevent Direct Access Gold不再使用robots.txt禁止规则阻止您的网站页面搜索引。相反，我们使用它noindex元标记也有助于谷歌和其他搜索引擎在你的网站上正确分发你的内容。

Yoast建议保持robots.txt干净，不要阻止包括以下内容：

User-agent: *Disallow: /wp-admin/Allow: /wp-admin/admin-ajax.phpDisallow: /wp-content/plugins/Disallow: /wp-includes/

WordPress也同意理想robots.txt 什么都不应该禁止。事实上，/wp-content/plugins/和/wp-includes/您的主题和插件可以用来正确显示您的网站图像，JavaScript或CSS文件。阻止这些目录意味着插件和WordPress所有脚本、样式和图像都被阻止，这使得Google很难与其他搜索引擎一起分析和理解你的网站内容。同样，你也不应该阻止你/wp-content/themes/。

总之，禁止你的WordPress资源、上传和插件目录，很多人声称可以提高你网站的安全性，防止任何目标容易被攻击的插件被使用，但可能弊大于利，尤其是在SEO方面。或者，卸载这些不安全的插件更实用。

这就是我们默许从robots.txt删除这些规则的原因。然而，你可能仍然想把它们包括在内WordPress的Robots.txt内。

建议包含Sitemap文件

尽管Yoast强烈建议您直接手动XML提交站点地图Google Search Console和Bing网站管理员工具，但你仍然可以sitemap添加到robots.txt，帮助搜索引擎快速爬取你的网站页面。

Sitemap: /post-sitemap.xmlSitemap: /page-sitemap.xmlSitemap: /author-sitemap.xmlSitemap: /offers-sitemap.xml

Robots.txt的其他规则

为了安全，我建议你阻止你WordPress的readme.html，licence.txt和wp-config-sample.php访问文件，使未经授权的人员无法检查和查看您正在使用的文件WordPress版本。

User-agent: *Disallow: /readme.htmlDisallow: /licence.txtDisallow: /wp-config-sample.php

你也可以用robots.txt定制不同搜索引擎爬虫的不同爬行规则，如下示例。

# block Googlebot from crawling the entire websiteUser-agent: GooglebotDisallow: /# block Bingbot from crawling refer directoryUser-agent: BingbotDisallow: /refer/

如何阻止蜘蛛抓取？WordPress强烈建议在搜索结果中添加此规则：

User-agent: *Disallow: /?s=Disallow: /search/

Host＆Crawl-delay你可能会考虑使用其他东西robots.txt虽然指令不太受欢迎。第一个指令允许您指定网站的首选域（www或非www）：

User-agent: *#we prefer non-www domainhost:

下面的规则是告诉搜索引擎蜘蛛每次抓取前要等几秒钟。

User-agent: *#please wait for 8 seconds before the next crawl crawl-delay: 8

完整的robots.txt

综上所述，我们建议WordPress的robots.txt内容编写如下：

User-agent: *Allow: /wp-admin/admin-ajax.phpDisallow: /wp-admin/Disallow: /wp-login.phpDisallow: /readme.html Disallow: /licence.txt Disallow: /wp-config-sample.phpDisallow: /refer/Disallow: /?s= Disallow: /search/#we prefer non-www domain(填写你网站域名的首选域名，一般带www，有些搜索引擎不支持这一规则，请根据实际情况填写，慎重添加）host: #please wait for 8 seconds before the next crawl(填写爬虫爬行页面的延迟秒) crawl-delay: 8Sitemap: /post-sitemap.xml

温馨提示：以上完整提示：robots.txt仅供参考，请根据自己的实际情况编写内容，其中User-agent: *规则对所有搜索引擎蜘蛛都是通用的；Allow: 规则允许爬行；Disallow: 规则是不允许爬行；host:规则用于指定网站规则；crawl-delay:规则用于设定爬虫爬行时间；Sitemap:设置网站地图地址的规则。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。