完整详细的robots文件写法

一、robots是什么意思?

Robots,是robots协议的简称,通常也被称为robots文件,是一个txt的文本文件,通常被放到网站的根目录里。
robots协议,全称是“网络爬虫排除标准”,意思就是搜索引擎蜘蛛的爬行规则,robots协议告诉这些蜘蛛们该怎么爬行我的网站,哪些页面可以被爬行抓取,哪些是不可以被爬行抓取的。
就好比,如果我们进入一个地方,我们首先是要听从主人的意思,什么可以动什么不可以动,这是道德规范,robots协议就是国际互联网界通行的道德规范。
robots是搜索引擎第一个要看的文件

Robots协议主要有几个要点:

1、User-agent:  指明哪些搜索引擎要遵守协议
2、Disallow: 标明哪些文件目录不能被抓取。可能是一个目录,也可能是一个文件,也可能是一类文件。
3、Allow: 指明可以被抓去的文件或者路径。和不被允许抓取遵循同样的原则。
4、Sitemap:标明网站地图的位置,只是搜索引擎去爬行。
Robots协议的写法:
User-agent: * :意思是标明哪些搜索引擎要遵守以下协议。*是通配符,表示所有的搜索引擎。也可以写成User-agent: Baiduspider意思是百度蜘蛛要遵守以下协议。
Disallow: /a/意思是标明不允许爬行a文件下的所有目录及文件。
Disallow: /b/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/c/c.html 禁止爬取ab文件夹下面的adc.html文件。
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
另外,想禁止爬行某个目录同时又想目录里面的某个文件被收手该怎么写那
Disallow: /d/禁止蜘蛛爬行收录的文件夹的所有目录和文件。
Allow: /d/d.html 这里定义是允许爬寻d目录下面的d.html的文件。
 

二、robots文件的作用

1、屏蔽网站内隐私内容,比如网站的登陆路径,比如网站的备份数据路径等
2、屏蔽网站的死链接,不过死链接最好的处理方法不是用robots屏蔽,对于死链接的处理我有专门的一篇文章价绍,有兴趣的可以去看看。
3、屏蔽网站内重复的页面,这里的屏蔽是屏蔽入口路径,做到权重集中。
robots文件的协议制作模板
 

三、robots制作方法

1、纯手工制作

上面我们已经了解robots协议的原理,那么我们自己制作一个TXT文本文件,在里面按照规则速写,把不想被抓取的,可以被抓取文件夹按照规则一个个的书写,当我们不写的时候是默认抓取的。

2、在线制作

有一个工具可以在线制作,“在线网站robots.txt文件生成器”可以按照流程一步步的来,最后生成以后要检查一下,是否屏蔽了不该屏蔽的目录,或者应该被屏蔽的没有屏蔽等。百度的站长工具也可以生成,有兴趣的朋友可以实践一下。

 

本文属作者精心原创,转载请保留链接:http://www.pybseo.com/rumen/4.html