<<<<<<< .mine =======
当前位置: 首页 > SEO > 网站IIS数据定义(一)

网站IIS数据定义(一)

时间:2011-12-28 19:52:59
看到M总写了很长串的新人学习博文,这边也效仿下,把一些SEO的基本知识一一的整理下,上一篇的“robots.txt文件揭秘”,就算是写的第一篇吧,今天说下IIS日志。

日志基础:

#Software: Microsoft Internet Information Services 6.0

#Version: 1.0(版本号1.0)

#Date: 2011-11-20 00:02:15(日期 时间)

#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status

c-ip:客户端IP地址。

cs-username:用户名,访问服务器的已经过验证用户的名称,匿名用户用连接符-表示。

s-sitename:服务名,记录当记录事件运行于客户端上的Internet服务的名称和实例的编号。

s-computername:服务器的名称。

s-ip:服务器的IP地址。

s-port:为服务配置的服务器端口号。

cs-method:请求中使用的HTTP方法,GET/POST。

cs-uri-stem:URI资源,记录做为操作目标的统一资源标识符(URI),即访问的页面文件。

cs-uri-query:URI查询,记录客户尝试执行的查询,只有动态页面需要URI查询,如果有则记录,没有则以连接符-表示。即访问网址的附带参数。

sc-status:协议状态,记录HTTP状态代码,200表示成功,403表示没有权限,404表示找不到该页面,具体说明在下面。

sc-substatus:协议子状态,记录HTTP子状态代码。

sc-win32-status:Win32状态,记录Windows状态代码。

sc-bytes:服务器发送的字节数。

cs-bytes:服务器接受的字节数。

time-taken:记录操作所花费的时间,单位是毫秒。

cs-version:记录客户端使用的协议版本,HTTP或者FTP。

cs-host:记录主机头名称,没有的话以连接符-表示。注意:为网站配置的主机名可能会以不同的方式出现在日志文件中,原因是HTTP.sys使用Punycode编码格式来记录主机名。

cs(User-Agent):用户代理,客户端浏览器、操作系统等情况。

cs(Cookie):记录发送或者接受的Cookies内容,没有的话则以连接符-表示。

cs(Referer):引用站点,即访问来源。

其中:

cs-method:请求中使用的HTTP方法。GET和POST两个方法是不一样的,一般来说GET是正常的,出现POST的时候需要注意。

sc-status:协议状态,记录HTTP状态代码,200表示成功,403表示没有权限,404表示找不到该页面,具体说明在下面。

状态码分很多种,1XX:这一类型的状态码,代表请求已被接受,需要继续处理;2XX:这一类型的状态码,代表请求已成功被服务器接收、理解、并接受;3XX这类状态码代表需要客户端采取进一步的操作才能完成请求。通常,这些状态码用来重定向,后续的请求地址(重定向目标)在本次响应的 Location 域中指明;4XX:这类的状态码代表了客户端看起来可能发生了错误,妨碍了服务器的处理。

我们需要了解的是各个状态码的含义,以便了解搜索引擎对网站的抓取情况。200表示成功访问,是日志中常见的返回码;304禁止访问;404请求错误;301永久重定向.....这些都是一些非常常见的状态码,如遇到304,404等表示有问题的代码的时候就要引起注意了,后面会更详细的说到。

例:2011-11-20 00:02:15 W3SVC1603690642 114.80.202.13 GET /data/config.php art=1322 80 - 123.125.71.48 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 404 0 64

以上这个是列举的百度蜘蛛爬行的记录,可以看到访问的是“/data/config.php art=1322”页面,后面的+Baiduspider则表示是百度蜘蛛,再稳固一遍:谷歌蜘蛛,为googlebot;yahoo蜘蛛,Yahoo!slurp;bing蜘蛛MSNbot。后面的404则表示不存在该页面,既然不存在该页面,蜘蛛怎么会抓取呢?是不是网站中有入口,这些404的比例有多大?如果大部分iis日志状态妈都是404,那是否对网站api明有影响?又应该怎么去处理?这些都是应该去发散思考的。例:http://www.seotcs.com/blog/?p=885,

iis日志404

这是前段时间写的一篇博客,可以看下。

暂时先说到这,下回再分解。

相关文章

挖掘长尾关键词要注意:搜索引擎正在扼杀长尾关键词

如果你是一个搜索引擎优化工程师,肯定知道挖掘长尾关键词是做好搜索引擎优化最重要的步骤,也是最有价值的步骤。一个好的长尾关...

探讨新浪腾讯搜狐微博开心网sns与搜索引擎的社会原理

今天,你随便搜索一个老朋友的人名(涛哥除外),你会发现排名前几位的很多是新浪微博、腾讯微博、搜狐微博、开心网等,于是很多...

万网翔云I型云主机试用手记

由于客户网站的需要,我们租了一台万网的云主机,型号是翔云I型: 万网声称,采用云主机,有几个好处,升级方便...

seo.chinaz综合查询替代了seowhy的位置引发的思考

最近,在百度输入SEO这个关键词的时候,排名有了新的变化,原先排名前两位的一般就是百度百科和seowhy,而且s...

SEO里怎么样做到知己知彼?

做网站排名最重要的就是打败竞争对手,将自己网站的关键词做上去。俗话说:“知己知彼百战不殆”,目前为止我比较已经把握了一些...
沪ICP备10034044号-12
400-685-0732
400-685-0732 在线咨询