外贸网站建设

怎么禁止搜索引擎抓取网站页面,robots.txt文件制作的制作

一、什么是Robots文件。Robots.txt文件是我们用来规范搜索引擎蜘蛛在索引网站时的索引范围,可以防止搜索引擎索引我们网站的私密文件。

注意事项:

1) 必须放在根目录下。

2) 文件名必须全部小写。

3) 如果允许全部抓取,也需要建立一个空的Robots.txt文件。

4) Robots.txt禁止的文件仍然有可能出现在搜索结果中。如需完全禁止需要用Meta Robots属性。

5) Robots只是一种规则,需要搜索引擎的配合。如若搜索引擎不遵守则无意义。二、Robots.txt文件的语法规则。Robots.txt中的记录是以空行来分开的,每行的格式:“<field>:<optionalspace><value><optionalspace>",<field>表示定义域,<optionalspace>表示开放空格,<value>表示定义域值。<field>定义域有三种:

1)User-agent该项定义域用来描述搜索引擎名称。常见搜索引擎名称:

Baiduspider 百度

Scooter Vista

ia_archiver Alexa

Googlebot 谷歌

FAST-WebCrawler Fast

MSNBOT Msn

2)Disallow该项定义域用来描述希望不被索引的URL路径。

3)Allow该项定义域用来描述可以被索引的URL路径(由于缺省值是允许索引所以该项定义域会很少使用到)。Disallow与Allow这两定义域的域值可以是一条完整路径也可以是路径的非空前缀。

三、robots.txt文件具体写法。robots.txt文件包含2个域,“User-agent:”和“Disallow:”,每条指令独立一行。

(1)User-agent:指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:

User-agent: Googlebot

只允许Google的蜘蛛抓取;User-agent: *允许所有蜘蛛抓取。注意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。

(2)Disallow:指定禁止蜘蛛抓取的目录或文件,如:

Disallow: /help.php

禁止抓取根目录下help.php文件;

Disallow: /admin/禁止抓取根目录下的admin子目录中任何内容;

Disallow:

值为空时,表示不限制,蜘蛛可以抓取站内任何内容。

如果需要指定多个目录或文件,可以用多个“Disallow: 文件或目录名”来指定,但必须每一项单独一行(例如google的robots.txt就很夸张)。

四、Robots.txt文件的具体实例用法。

例1. 禁止所有搜索引擎访问网站的任何部分User-agent: *    Disallow: /

例2. 允许所有的robot访问网站的任何部分User-agent: *     Disallow:

例3. 仅禁止Baiduspider访问您的网站User-agent: Baiduspider  Disallow: / 

例4. 仅允许Baiduspider访问您的网站User-agent: Disallow:    User-agent: *    Disallow: /

例5. 禁止spider访问特定目录User-agent: *    Disallow: /cgi-bin/ Disallow: /tmp/    Disallow: /data/

【福步科技】专业从事:、、供空间域名、虚拟主机、服务器托管、网站维护等基础服务。

我们:专业专注.用心服务.不求第一.但求最好!

福步科技:佰仟之德;达您所愿!

你的满意,你的肯定.就是对我们的认可,让我们携手共赢!!!

请联系我们;服务热线:15014038180

余经理:QQ:1910338799

地址:上海市龙华新区民治大道218号沙元埔大厦13楼1318室(民治地铁站D出口对面)

[上海网站建设网图文来源于网络,如有侵权,请联系删除]

本站主要关键词:外贸网站建设网站建设网站制作网站设计网页设计网页制作小程序开发