武汉seo博客

没错,我就是美貌与智慧并存,英雄和侠义的化生,9527就是你的终身代号!来吧!不要因为我是娇花而怜惜我!用力啊!
武汉SEO博客 >> 操作经验 >> 怎么分析网站蜘蛛爬行日志

更多

曾维健
曾维健发表于2012-08-17    

网站日志就是一种txt文本文件用以记录网站服务器接受处理各种请求时的记录文件。

怎么查看日志

网站日志一般都是放在主机的根目录下,文件夹名一般是www_logs,不同的idc可能文件夹名或路径不一样, 网站日志文件后缀名称为log。可以通过ftp下载下来,然后用记事本打开查看,现在也有很多网站日志查看软件,这样分析起来更方便。

网站日志的作用

网站日志可以很清楚的看到我们网站的状况,什么ip的客户访问了什么页面、状态码是多少、是什么操作系统、是什么浏览器等信息。通过以上信息,可以对我们的seo优化工作起到非常重要的指导作用,比如我们可以通过分析网站日志知道网站里有哪些页面是错误的,然后可以用robots文件屏蔽蜘蛛去抓取这些错误页面。

蜘蛛爬行日志分析

我们随便拿一段我seo博客的蜘蛛爬行日志来分析一下,比如:

203.208.60.198 – - [16/Aug/2012:01:12:28 +0800] “GET /201208/181.html HTTP/1.1″ 200 20745 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

203.208.60.198:访客的ip

[16/Aug/2012:01:12:28 +0800]:来访的时间

GET /201208/181.html :获取了 /201208/181.html 这个页面

HTTP/1.1″ 200 20745 :http1.1的协议,返回码是200,总共获取了20745字节的内容

“Mozilla/5.0:使用的火狐5.0的浏览器

Googlebot/2.1:谷歌的蜘蛛

http的返回码有很多,最常见的是200,这代表着正常抓取;301,当前页面已经被永久转移;302,当前页面临时跳转;500,服务器暂时打不开;404,页面错误,无法访问!

 

 

 

你可以发表评论引用到你的网站或博客,或通过RSS 2.0订阅这个日志的所有评论。
上一篇:
下一篇:
已有1条评论

[...] 昨天检查了网站日志,也写了文章把检查结果发布出来了。对于昨天文章里说的关于百度不同ip段蜘蛛的解释,我本来就持怀疑态度,特别是那篇文章里说的抓取内页123.125.71.**的蜘蛛代表着内页质量太低,文章是垃圾文章或复制拼凑的内容,百度不会在短时间内收录放出。昨天忘记把这篇文章发出来了。今天把url给大家,原文在什么地方不知道了,只找到一个带文本外链的帖子,凑合看http://bbs.admin5.com/thread-5830574-1-1.html。 [...]

我来说两句

你需要 登录 后才能进行讨论.