本站和很多知名的博客一样,使用的是世界上最流行的博客程序wordpress搭建,以前从来没有去管robots.txt,虽然说被Google自杀了之后一直没有收录,不过小哀我最近还是在努力的为重新抓取收录做准备,不仅仅换了博客的模板还重新盗窃了404页面,还将wordpress的robots.txt重新写了,利用robots.txt文件来限制搜索引擎抓取部分目录及文件.
首先来展示的就是我的robots.txt是这么写的:
User-agent: *
Disallow: /wp-*
Disallow: /www_logs
Disallow: /feed/
Disallow: /comments/feed
Disallow: /trackback/
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?id=
Disallow: /?s=
Sitemap: http://www.kuqin.com/sitemap.xml
Sitemap: http://www.kuqin.com/sitemap.xml.gz
最然我这个不是最合理的写法,但是主要的还是自己个个人爱好吧,在这个robots.txt里允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制 /www_logs 这个目录及文件,这个是服务器的一个蜘蛛爬行日志,禁止访问trackback和comments是为了避免垃圾评论和垃圾引用,限制抓取.php文件、.js文件、.css文件,限制抓取/?s=搜索结果,最后2条是告诉这2个文件都是我的网站地图.
robots.txt协议并不是一个规范,而是很多搜索引擎约定俗成的,所以每个搜索引擎遵守robots.txt的方式也不一样,在你修改robots.txt文件时,可以用Google网站管理员工具检测一下robots.txt是否符合规范.
很多Wordpress博友还自创了很多robots写法,下面列举一些仅仅作为参考:
Disallow: /page/
#限制抓取Wordpress分页
Disallow: /category/*/page/*
#限制抓取分类的分页
Disallow: /tag/
#限制抓取标签页面
Disallow: /category/*
#限制抓取所有分类列表
本站的这个写法并不是最合理的,不过自己在使用wordpress的时候自己根据搜索引擎的抓取和自己的隐私需要去慢慢挖掘一点robots.txt写法,每个人都有自己的经验和技巧,基本上没有什么章法可循,不过我觉得这个里面最重要的就是去限制抓起/wp-*,其他的就随个人爱好了,
Wordpress由我做主,最合理的robots.txt写法
,管理资料
《Wordpress由我做主,最合理的robots.txt写法》(http://meiwen.anslib.com)。来自:http://www.seops.cn/P/972.html