<<<<<<< .mine =======
当前位置: 首页 > SEO > 对于robots.txt文件的学习

对于robots.txt文件的学习

时间:2012-09-19 10:54:43
 

上次Bruce给我们培训时曾经问过大家是否知道各种搜索引擎robot叫什么名。最近刚好看到一些相关的总结,因此先与大家分享一下。

百度:Baiduspider

谷歌:Googlebot

搜搜:Sosospider

搜狗:Sogou+web+spider

有道:Yodaobot

雅虎:yahoo!+Slurp+china

robots.txt是一个纯文本文件,里面记载网站中哪些内容robots是可以访问的,哪些是不允许访问的。robots.txt必须放置在一个站点的根目录下,并且文件名必须全部小写。

在学习robots.txt知识时,感觉理论知识虽然很重要,但是实践操作更为重要,因此在学习时对robots.txt也就侧重了robots.txt的写法。

1)拦截所有的机器人访问网站

User-agent: *

Disallow: /

2)答应所有的机器人访问网站

User-agent: *

Allow: /

3)禁止所有机器人访问特定目录:

User-agent: *

Disallow: /public/

Disallow: /images/

Disallow: /temp/

Disallow: /include/

4)禁止特定搜索引擎蜘蛛访问特定目录

User-agent: Baiduspider

Disallow: /test/

上面的robots.txt语法示例的意思是禁止百度蜘蛛爬行根目录下的test目录

5)仅禁止Baiduspider抓取.jpg格式图片

User-agent: Baiduspider

Disallow: .jpg$  

6)仅答应访问以.htm为后缀的URL。

User-agent: *

Allow: .htm$

Disallow: /  

7)禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*?*

另外在写robots.txt时还需要注意一些容易犯的错误

1)把多个禁止命令放在一行中:

错误地写法

Disallow: /css/ /cgi-bin/ /images/

正确的写法

Disallow: /css/

Disallow: /cgi-bin/

Disallow: /images/  

 2)、表示目录时,忘记了斜杠/

错误的写法

User-agent: Baiduspider

Disallow: css

正确的写法

User-agent: Baiduspider

Disallow: /css/

相关文章

阿里云服务器试用手记

最近由于SEOTcs计算数据的增多,需要找一些廉价的服务器来作为计算节点,发现市场上支持java的虚拟主机还是不少,但是...

对SiteMap的一些认识

Sitemap,即网站地图,也被成为站点地图。上面放置了网站上所有的页面链接。用户可以通过网站地图高效的找到自己所需的信...

网页设计背景运用的趋势

设计总是会花费不少时间,而高级效果也一定会为设计增添不少色彩,但是用的好与不好,直接会影响客户的关注度。 一个高级...

排名大量下滑 到底有哪些因素?

从SeoTcs的监测数据我们不难发现,8月底,很多大的企业站点,其关键词排名都呈现直线下降的趋势,对此,很多站长会很头疼...

软文与外链应孰轻孰重

前阵子,几大商家在网上拉起的价格战引起了我们的关注,更使得电子商业又火热了一把。这场战争的最终胜利属于哪方,我们并不知晓...
沪ICP备10034044号-12
400-685-0732
400-685-0732 在线咨询