<<<<<<< .mine =======
当前位置: 首页 > SEO > 浅谈我对robots.txt文件的初步了解

浅谈我对robots.txt文件的初步了解

时间:2012-09-08 11:16:48
近日,有关360搜索违反robots协议的事件引起了广大站长的不满,有关robots.txt文件,做seo的人都知道,他是告诉蜘蛛哪些页面可以爬取,哪些页面不可以爬取。但有关robots.txt的语法及了解,我一直是一知半解的,经过上周的培训及自己看了一些资料,对此也有一定的了解,下面就简单整理一下:

第一:robots.txt的定义:它是一个纯文本文件,通过这个文件,让蜘蛛知道更明确的知道该如何爬取,这样就可以让搜索引擎只爬取指定的内容,从而利于指定页面的收录;除此之外,robots.txt必须放置于一个站点的根目录下,而且文件名必须全部小写。而相应的robots.txt则为:

http://xxx/

http://xxx/robots.txt;

第二:robots.txt的语法:robots.txt文件中,通常以一行或多行User-agent应用以下规则的蜘蛛)开始,后面加上若干Disallow要拦截的网址),除此之外,我们知道,robots.txt文件中都是独立的各个部分,具体为:

User-agent*

Disallow/folder1/

User-Agent: Googlebot

Disallow: /folder2/

Sitemap: http://xxx/sitemap.html

以上案例中,只有于/folder2/匹配的网址才不会被蜘蛛抓取;而且,一般我们在robots.txt文件中会建议加入sitemap,优势即可以引导蜘蛛区爬取网站的地图页面,同时robots.txt文件中的sitemap指令是支持多个的!我们常见的:

第三:User-agentDisallow名词解释:

User-agent:用于描述搜索引擎robot的名字,在“robots.txt”中,如果存在多个User-agent,则表示多个robot会受到限制,如果设为*,则表示该协议对任何机器均有效;但规定,“robots.txt”文件中,User-agent*这样的记录只能有一条。

Disallow:任何以Disallow开头的URL均是不希望被robot访问到,Disallow可以是一条完整的URL,也可以是部分;简单的表示手法为:要拦截某一目录以及其中的所有内容,请在目录名后添加正斜线,为:“ Disallow: /无用目录/”;要拦截某个网页,请列出该网页,为:“Disallow: /私人文件.html”。如果Disallow记录为空,则说明该网站均可以被访问。我们常见的写法包括:

Disallow: /admin/ 这里表示禁止爬寻admin目录下面的目录

Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)

Disallow: /*?* 这里表示禁止访问网站中所有的动态页面 

Disallow: /jpg$ 这里表示禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 这里表示禁止爬去ab文件夹下面的adc.html文件。

当然,有关“robots.txt”文件,这里只是介绍了一些皮毛,如何恰到好处的使用才是其真谛,有关这方面的知识笔者也需要进一步的学习和了解!

相关文章

做好图片seo要向蘑菇街学习

每个人对于图片信息的接收能力要比文字信息强,随着信息科技越来越发达,网站也从过去的文字形式转化到了图文并茂的形式。但是我...

搜索带来了多少流量?

首先做个比较:“搜索”VS“电视” http://www.seotcs.com 本人自己是一个学做广告媒体的人,在...

Do not be evil-不作恶的谷歌

大多数人想了解一样事物,会通过搜索引擎搜索相关信息,因此,搜索代表着一种求知意愿。想你所想,并呈现出你想要的搜索结果,便...

SEO知识普及之nofollow标签的使用

对于seo初学者,nofollow标签是挺迷惑的,那么这个标签到底是什么意思呢?有什么作用呢?可能有些人知道这个标签可以...

网页设计排版篇

网页设计中排版的重要性不容忽视,百分之九十五以上的网页信息是由文字组成的,将一个页面很好的呈现,排版是最佳的理由。 ...
沪ICP备10034044号-12
400-685-0732
400-685-0732 在线咨询