Wordpress由我做主,最合理的robots.txt写法 -管理资料

管理资料 时间:2019-01-01 我要投稿
【meiwen.anslib.com - 管理资料】

    本站和很多知名的博客一样,使用的是世界上最流行的博客程序wordpress搭建,以前从来没有去管robots.txt,虽然说被Google自杀了之后一直没有收录,不过小哀我最近还是在努力的为重新抓取收录做准备,不仅仅换了博客的模板还重新盗窃了404页面,还将wordpress的robots.txt重新写了,利用robots.txt文件来限制搜索引擎抓取部分目录及文件.

    首先来展示的就是我的robots.txt是这么写的:

    User-agent: *

    Disallow: /wp-*

    Disallow: /www_logs

    Disallow: /feed/

    Disallow: /comments/feed

    Disallow: /trackback/

    Disallow: /*.php$

    Disallow: /*.js$

    Disallow: /*.css$

    Disallow: /?id=

    Disallow: /?s=

    Sitemap: http://www.kuqin.com/sitemap.xml

    Sitemap: http://www.kuqin.com/sitemap.xml.gz

    最然我这个不是最合理的写法,但是主要的还是自己个个人爱好吧,在这个robots.txt里允许所有蜘蛛访问,限制以“wp-”开头的目录及文件,限制 /www_logs 这个目录及文件,这个是服务器的一个蜘蛛爬行日志,禁止访问trackback和comments是为了避免垃圾评论和垃圾引用,限制抓取.php文件、.js文件、.css文件,限制抓取/?s=搜索结果,最后2条是告诉这2个文件都是我的网站地图.

    robots.txt协议并不是一个规范,而是很多搜索引擎约定俗成的,所以每个搜索引擎遵守robots.txt的方式也不一样,在你修改robots.txt文件时,可以用Google网站管理员工具检测一下robots.txt是否符合规范.

    很多Wordpress博友还自创了很多robots写法,下面列举一些仅仅作为参考:

    Disallow: /page/

    #限制抓取Wordpress分页

    Disallow: /category/*/page/*

    #限制抓取分类的分页

    Disallow: /tag/

    #限制抓取标签页面

    Disallow: /category/*

    #限制抓取所有分类列表

    本站的这个写法并不是最合理的,不过自己在使用wordpress的时候自己根据搜索引擎的抓取和自己的隐私需要去慢慢挖掘一点robots.txt写法,每个人都有自己的经验和技巧,基本上没有什么章法可循,不过我觉得这个里面最重要的就是去限制抓起/wp-*,其他的就随个人爱好了,

Wordpress由我做主,最合理的robots.txt写法

管理资料

Wordpress由我做主,最合理的robots.txt写法》(http://meiwen.anslib.com)。

    来自:http://www.seops.cn/P/972.html

最新文章
推荐文章