站长朋友都知道搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider我们俗称蜘蛛,它在访问一个网站时,会首先会检查该网站的根域下是否有一个robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您robots.txt中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
但是很多朋友只知道复制别人给出robots的写法,自己却没有真正了解里面的内容是什么意思,其说说起来并不复杂,robots.txt里面通常包含三个规则:
robots文件规则:
1、User-agent:指定搜索引擎蜘蛛。后面如果是*,那就代表所有的搜索引擎,如果单独写明:Baiduspider,那就是指百度蜘蛛。
2、Disallow :指定禁止收录的地址。后面如果是/,那就是指所有
3、Allow: 指定允许收录的地址
了解了这三个规则,就知道了robots中每一行的含义。我们也就能更有针对性的部署我们的robots文件了,需要注意的是冒号后面必须有一个空格。
禁止所有搜索引擎收录:
User-agent: *
Disallow: /
允许所有搜索引擎收录:
User-agent: *
Allow: /
wordpress的robots写法:
User-agent: *
Disallow: /comments/feed/
Disallow: /*/trackback
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /*?replytocom=
Disallow: /*/comment-page-*
Disallow: /?r=*
Disallow: /?p=*
Disallow: /page/
Allow: /wp-content/uploads/
上面的 User-agent:*意思就是对所有的蜘蛛进行定义,Disallow 是拒绝收录,我想大家都懂的。
补充:
wordpress的robots说明:
User-agent: *
# 通配符*表示对所有搜索引擎爬虫生效
Disallow: /wp-admin/
# 禁止搜索引擎爬虫访问wp-admin目录,以防止爬取敏感内容
Disallow: /wp-includes/
# 禁止搜索引擎爬虫访问wp-includes目录,以防止爬取核心WordPress文件
Disallow: /wp-content/plugins/
# 禁止搜索引擎爬虫访问插件目录,通常插件不需要被索引
Disallow: /wp-content/themes/
# 禁止搜索引擎爬虫访问主题目录,通常主题不需要被索引
Disallow: /readme.html
# 禁止搜索引擎爬虫访问readme.html文件,以防止泄露敏感信息
Disallow: /xmlrpc.php
# 禁止搜索引擎爬虫访问xmlrpc.php文件,以增加站点安全性
Disallow: /comments/feed/
# 禁止搜索引擎爬虫访问评论的RSS feed,避免重复内容索引
Disallow: /trackback/
# 禁止搜索引擎爬虫访问trackback链接,避免被滥用
Disallow: /feed/
# 禁止搜索引擎爬虫访问默认文章和评论的RSS feed
Disallow: /tag/
# 禁止搜索引擎爬虫访问标签页面,以避免重复内容
Disallow: /category/
# 禁止搜索引擎爬虫访问分类页面,以避免重复内容
Disallow: /author/
# 禁止搜索引擎爬虫访问作者页面,以避免重复内容
Allow: /wp-admin/admin-ajax.php
# 允许搜索引擎爬虫访问admin-ajax.php文件,以支持站点功能
Sitemap: https://www.chukuangren.com/sitemap.xml
# 提供站点地图的URL,以帮助搜索引擎更好地索引站点内容
网站的建设和推广是一个长期的综合过程,其中的每一个细节都很重要,希望这篇文中分享的robots的写法可以帮助您wordpress网站SEO的完善,进一步提高网站关键词的排名。