电子商务
Robots.txt同样有学问
2011-05-30  浏览:19
 Robots.txt文件是一个简单的TXT文本,但是专注网站建设及网站优化的Seoer们都清楚它的重要性,它的存在可以将不希望搜索引擎抓取的页面屏蔽起来,也可以像是一张地图一样为蜘蛛引路指航。当蜘蛛爬行到一个站点时,首先访问的便是是否存在Robots.txt文件,然后按照内容中的指引来进行索引访问,如果文件不存在的话那么就按照页面中的链接进行顺序的访问。因此我们可以利用它来屏蔽一些不需要搜索引擎要索引的目录,或者将网站地图在Robots.txt中描述引导蜘蛛爬行,这样对于网站安全性上或者节省服务器带宽以及引导索引都是非常给力的,可以说是达到了扬己之长避己之短的效果,以下我们做以具体分析:

  一、利用Robots.txt节省服务器带宽

  一般来说站长很少去做这样一个设置,然而当服务器访问量大内容过于多的话就有必要做一个设置来节省服务器的带宽,如屏蔽:image这样的文件夹,对于搜索引擎索引来说没有什么实际性的意义还浪费了大量的带宽。如果对于一个图片网站来说,消耗更是惊人的,所以利用Robots.txt可以充分解决这一点。

  二、保护网站安全目录

  一般来说在设置Robots.txt时都要把管理目录以及数据库、备份目录设置进去,进制蜘蛛的爬行,否则容易造成数据的泄露影响网站的安全。当然还有一些管理员不希望蜘蛛索引的其他目录,同样可以将其进行设置,这样来说搜索引擎就可以严格的遵守这个规则来进行索引。

  三、禁止搜索引擎索引页面

  一个网站总有一些不希望公众看到的页面,这个时候我们可以用Robots.txt来进行设置,避免蜘蛛对其索引,如前段日子笔者网速比较慢结果更新了一篇文章,导致连续重复发布了3次,结果全部被搜索引擎索引,怎么办呢?重复的内容必然对网站优化是不好的,这时候便可以通过设置Robots.txt来将多余的页面屏蔽掉。

  四、Robots.txt链接网站地图

  由于蜘蛛访问网站首先查看的便是Robots.txt这个文件,那么我们可以将网站地图设置进去,更有利于蜘蛛索引最新的信息,而少走许多冤枉路。如显示专业网站建设公司引航科技的地图页:http://www.****.net.cn/ sitemap.xml这样加到Robots.txt中更是有利于搜索引擎的索引。也不用每天麻烦的到搜索引擎提交地图文件,不是很简便吗?

  五、写法及注意事项

  对于Robots.txt写法一定要规范,写法上疏忽不注意的人并不在少数。首先来说:User-agent:*是必须要写的,*表示针对所有搜索引擎。Disallow:(文件目录)不包括括号,表示禁止搜索引擎索引的意思,一下举个例子具体说明:

    示例1:
  User-agent:*
    Disallow:/
    表示禁止任何搜索引擎索引访问,

    示例2:

    User-agent:*
    Disallow:/seebk
    表示禁止搜索引擎索引访问seebk目录

    示例3:

  User-agent:baiduspider
  User-agent:*
  Disallow:/

    表示只允许百度蜘蛛堆砌索引访问:百度:baiduspider,谷歌:googlebot,搜搜:sosospider,alexa:ia_archiver,雅虎:Yahoo Slurp
    示例4:

    User-agent:*
    Disallow:.jpg$

    防止盗链jpg图片,如果你的带宽足够的话可以不设置。

    后语:优化Robots.txt扬己之长避己之短,做好Robots.txt更易网站顺畅优化发展