我们前两天给大家分享了《网站日志分析 #2:302临时性重定向的危害及解决方法》《网站日志分析 #1:304状态码的问题及解决办法》两篇文章,大家的反响还是很大的,说从来没有深入的研究过这个问题,网站里面存在了大量的302或者304代码。还有另外一些问题就是想了解一下日志文件里面的那些代码都什么意思,完全看不懂,那么我们今天给大家详细讲解一下,大多数网站中的日志经常出现的代码,以及日志中的内容都是什么意思。
一、蜘蛛名称介绍:
这里只介绍我们常用的几种蜘蛛
1、百度蜘蛛:Baiduspider
网页搜索:Baiduspider
无线搜索:Baiduspider-mobile
图片搜索:Baiduspider-image
视频搜索:Baiduspider-video
新闻搜索:Baiduspider-news
百度搜藏:Baiduspider-favo
百度联盟:Baiduspider-cpro
移动搜索:baidu-Transcoder
竞价蜘蛛:Baiduspider-sfkr
比较常见的是Baiduspider、Baiduspider-image这两个。
2、谷歌蜘蛛:Googlebot
网页搜索:Googlebot
无线搜索:Googlebot-Mobile
图片搜索:Googlebot-Image
Google AdSense:Mediapartners-Google
Google AdWords:Adsbot-Google
3、360蜘蛛:360Spider
4、搜狗蜘蛛:Sogou web spider/4.0、Sogou inst spider/4.0
二、蜘蛛爬取返回类型
在蜘蛛爬取后会返回代码,通过查看贷款状态可以看到爬取结果,主要HTTP状态码有一下几类:
(1)200代码,表示蜘蛛爬取正常。
(2)301代码,表示永久重定向,一个网页永久的指向另外一个网页。
(3)302代码,表示临时重定向,网页a临时指向网页b,但是a的内容还保留。
(4)304代码,表示自从上次抓取后,该内容没有更新。一般情况下,网站的图片经常会返回该值。
(5)403代码,是网站访问过程中,常见的错误提示。资源不可用。服务器理解客户的请求,但拒绝处理它。通常由于服务器上文件或目录的权限设置导致。
(6)404代码,访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。
(7)500代码,表示程序有错。
当然有一部分代码下面还有细分代码例如:403.9错误是由于连接的用户过多而造成的,由于Web 服务器很忙,因通讯量过多而无法处理请求时便会返回这条错误。我们想解决就得联系服务器运营商。那么这里的细分错误后续我单独做介绍,这里只介绍我们日志分析中常见的错误。
三、日志代码解读
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2013-12-22 16:00:39
#Fields: date time s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs-version cs(User-Agent) cs(Cookie) cs(Referer) cs-host sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken
date表示记录访问日期;
time访问时间;
s-sitename表示你的虚拟主机的代称。
s-ip访问者IP;
cs-method表示访问方法,常见的有两种,一是GET,就是平常我们打开一个 URL访问的动作,二是POST,提交表单时的动作;
cs-uri-stem就是访问哪一个文件;
cs-uri-query是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用-表示;
s-port 访问的端口;
cs-username 访问者名称;
c-ip 来源ip;
cs(User-Agent)访问来源;
sc-status状态,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;
sc-substatus 服务端传送到客户端的字节大小;
cs–win32-statu客户端传送到服务端的字节大小;
具体案例分析:
2013-12-22 18:47:12 W3SVC2137573334 D-901195C886694 119.147.151.150 GET /a.aspx id=2230&TypeId=91 80 - 123.125.71.28 HTTP/1.1 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) - - www.7ien.cn 200 0 0 59004 243 2250
这段日志表示,Baiduspider:表示蜘蛛爬取类型为百度蜘蛛,GET /a.aspx id=2230&TypeId=91表示蜘蛛爬取文件名为a.aspx id=2230&TypeId=91。返回结果为200。
总结:
日志分析不难,但是我们要用心的去分析,那么下一篇文章我会给大家讲解搜索引擎假蜘蛛的危害,《如何判断搜索引擎假蜘蛛》
备注:
对于本文章有什么更好的意见请加我的私人QQ:33053904,大家共同交流探讨。交流QQ群:361534229
本文由沈阳SEO践行者创作,转载请注明出处:http://www.5dseo.com/youhua/gaoji/201501/48.html