robots.txt的正确写法

好久没更新文章了,今天就针对网站robots讲讲网站的网站robots检测及书写,因为如果网站的robots写不好的话,可能会导致网站长时间不被收录的问题。
 网站robots检测及书写
一、网站robots是什么
网站robots是指robots协议,也成为爬虫协议、机器人协议,全称是“网络爬虫排除标准”,告诉搜索引擎那些页面可以抓取,哪些不可以抓取。其含义就是针对搜索引擎所定位的标准。
搜索引擎应该遵循的robots协议,但是,却不想法律一样具有强性,所以这就导致有些搜索引擎可能会不遵循网站的robots协议,其结果就是不想被抓取的页面也被抓取收录,比如:网站后台登录页面等。

二、三种网站robots检测方法
1、直接输入网站robots的地址,比如我的大白SEO博客网站就可以输入:www.dabaiseo.com/robots.txt,然后就可以看到我为我的网站写的robots协议了。
如下图:
 大白SEO博客的网站robots协议查看
2、第二种方法就是利用百度站长的工具检测
检测地址:http://zhanzhang.baidu.com/robots/index,这是百度官方的工具,检测出来的robots和你书写的一样,另外还可以对你写的robots进行检测是否正确,提示错误的地方。
如图:
 百度站长的网站robots协议检测工具
3、这是一个开发的robots在线监测工具,网址:http://tool.fillseo.com/robots/,这个工具会对网站robots检测的同时,会对你书写的每一句robots协议进行说明,让你明白每一句的意思,看看是不是你想要写的那样。
如图:
 带有规则说明的网站robots检测工具
三、网站robots的书写。
网站robots协议的书写其实很简单,不要认为太难,另外,网站robots其实没有专门的生成工具,有些工具即便可以生成,但是不一定适合你的网站,因为每一个网站的目录都是不一样的。
Robots书写规则:
1、User-agent: *
*是一个通配符,表示所有的搜索引擎都要遵循以下的规则。
 
2、Disallow: /admin/
意思是禁止爬行admin目录下的所有文件。
 
3、Disallow: /cgi-bin/*.htm
禁止搜索引擎访问/cgi-bin/目录下(包含子目录)的所有以".htm"为后缀的路径。
 
4、Disallow: /*?*
禁止搜索引擎爬行网站所有动态路径。
 
5、Disallow: /.jpg$
禁止搜索引擎爬行抓取网站所有的.jpg格式的图片
 
6、Disallow:/ab/c.html
禁止搜索殷勤爬取ab目录夹下的c.html文件。
 
7、Allow: /cgi-bin/ 
这里定义是允许爬寻cgi-bin目录下面的目录
 
8、Allow: /tmp
这里定义是允许爬寻tmp的整个目录
 
9、Allow: .htm$
允许搜索引擎爬行抓取以".htm"为后缀的路径。
 
10、Allow: .gif$
意思是允许抓取网页和gif格式图片
 
11、Sitemap: http://www.dabaiseo.com/sitemap.xml
意思是告诉搜索引擎网站的网站地图的位置在什么地方。
 
四、大白SEO网站robots协议实例。
全文如下:
User-agent: *
Disallow: /plus/ad_js.php
Disallow: /plus/advancedsearch.php
Disallow: /plus/car.php
Disallow: /plus/carbuyaction.php
Disallow: /plus/shops_buyaction.php
Disallow: /plus/erraddsave.php
Disallow: /plus/posttocar.php
Disallow: /plus/disdls.php
Disallow: /plus/feedback_js.php
Disallow: /plus/mytag_js.php
Disallow: /plus/rss.php
Disallow: /plus/search.php
Disallow: /plus/recommend.php
Disallow: /plus/stow.php
Disallow: /plus/count.php
Disallow: /include/
Disallow: /templets/
Disallow: /*?*
总结:网站robots的检测及书写其实很简单,只要了解robots协议的规则的意义和写法,就可以写出很好的网站robots,不过要记住的是每一个网站的robots是不一样的,因为每一个网站里面的目录是不同的,所以robots协议书写出来的也是不一样的。
本文属作者精心原创,转载请保留链接:http://www.pybseo.com/rumen/47.html