SEO所搜引擎优化之robots.txt文件基础知识

发布：智码IT网阅读：

robots.txt文件一般放在网站的根目录,用于告诉搜索引擎：

1、哪些URL是不想被搜索引擎收录的（使用Disallow属性），比如后台管理页面等一般是不希望被搜索引擎搜录入的；

2、哪些URL是希望被指定搜索引擎收录的（使用Allow属性）;

【格式】

1、User-agent:搜索引擎robot的名字。

1.1、*表示对任何robot均有效；

1.2、只能有一条 User-agent:* 记录；

1.3、如果在"robots.txt"文件中，加入多个"User-agent:SomeBot"及对应的Disallow、Allow行，则 SomeBot 只受其后面的 Disallow和Allow行的限制；

2、Disallow:不希望被访问的一组URL,该URL是一条完整的路径或路径的非空前缀。

2.1 "Disallow:/help" ：表示禁止访问以 /help前缀的URL，如/help.html、/helpabc.html、/help/index.html等

2.2 "Disallow:/help/"：表示禁止访问以 /help/目录前缀的URL，如/help/index.html不允许访问，/help.html、/helpabc.html等是可以访问的。

2.3 "Disallow:"表示允许robot访问该网站的所有url。

2.4 至少要有一条Disallow记录，如没有，则网站对所有搜索引擎的robot开放。

3、Allow:希望被访问的一组URL，该URL是一条完整的路径或路径的前缀

3.1 "Allow:/hibaidu"：允许访问以 /hibaidu 为前缀的URL，如 /hibaidu.htm、/hibaiducom.html、/hibaidu/com.html等。

3.2 一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。

4、模糊匹配URL

4.1 "*" 匹配0或多个任意字符

4.2 "$" 匹配行结束符

5、百度

5.1 严格遵守robots相关协议

5.2 URL中的目录区分大小写

6、注释：使用#进行注释的编写，如：#这里是注释的内容

上一篇：没有了

下一篇：没有了

在线工具

ITXP365(智码IT网)