robots文件是网站和搜索引擎之间的一个协议,当搜索引擎蜘蛛访问我们网站的时候第一个文件读取的文件就是网站的robots文件,robots文件里面写明了该站点哪些内容允许蜘蛛访问,哪些内容不允许蜘蛛访问。
robots文件的存在
robots全名robots.txt。存放在网站根目录下的纯文本文件,可以通过http:双斜杠www.你的域名.com/robots.txt访问到,当网站有robots文件时,搜索引擎会依照robots文件的规则来读取网站的内容。如果网站没有robots文件,那则默认为该网站允许所有搜索引擎访问网站的所有内容。
robots文件的大致写法
在robots文件里比较常见的代码是:”User-agent ” 和”Disallow”;
User-agent 的意思是本站robots规则适用于哪个蜘蛛,星号(*)则代表所有的搜索引擎;
如果只实用于百度蜘蛛则是:
User-agent :Baiduspider
如果只实用于谷歌蜘蛛则是:
User-agent :Googleboot
如果适用所有搜索引擎则是:
User-agent :*
Disallow的意思是告诉搜索引擎不要抓取哪些页面或是哪些目录;
如果想告诉搜索引擎不要抓取wp-admin这个目录下的内容:
Disallow:/wp-admin
还有就是robots文件支持网站地图位置:
http://www.zengweijian.cn/sitemap.html
这就是告诉搜索引擎本站的网站地图是哪个。
值得注意的是,robots文件要全部小写。
2012 年 12 月 25 日
[...] 在网站的检查中我还发现这个网站的robots写的比较多,导航的nofollow屏蔽了几个链接,这2点比较好理解,但是不知道为什么在首页的底部产品轮播那要加nofollow。网站的外链没什么问 题,外链做的比较少,好像只换了友情链接。 [...]
你需要 登录 后才能进行讨论.