ITXP365(智码IT网)

分享电脑知识,传播IT技巧

致敬爱学习的您,祝您访问愉快!

SEO所搜引擎优化之robots.txt文件基础知识


发布:智码IT网   阅读:
robots.txt文件一般放在网站的根目录,用于告诉搜索引擎:
1、哪些URL是不想被搜索引擎收录的(使用Disallow属性),比如后台管理页面等一般是不希望被搜索引擎搜录入的;
2、哪些URL是希望被指定搜索引擎收录的(使用Allow属性);

【格式】

1、User-agent:搜索引擎robot的名字。
   1.1、*表示对任何robot均有效;
   1.2、只能有一条 User-agent:* 记录;
   1.3、如果在"robots.txt"文件中,加入多个"User-agent:SomeBot"及对应的Disallow、Allow行,则 SomeBot 只受其后面的 Disallow和Allow行的限制;

2、Disallow:不希望被访问的一组URL,该URL是一条完整的路径 或 路径的非空前缀。
   2.1 "Disallow:/help" :表示禁止访问以 /help前缀 的URL,如/help.html、/helpabc.html、/help/index.html等
   2.2 "Disallow:/help/":表示禁止访问以 /help/目录前缀 的URL,如/help/index.html不允许访问,/help.html、/helpabc.html等是可以访问的。
   2.3 "Disallow:"表示允许robot访问该网站的所有url。
   2.4 至少要有一条Disallow记录,如没有,则网站对所有搜索引擎的robot开放。

3、Allow:希望被访问的一组URL,该URL是一条完整的路径 或 路径的前缀
   3.1 "Allow:/hibaidu":允许访问以 /hibaidu 为前缀的URL,如 /hibaidu.htm、/hibaiducom.html、/hibaidu/com.html等。
   3.2 一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

4、模糊匹配URL
   4.1 "*" 匹配0或多个任意字符
   4.2 "$" 匹配行结束符

5、百度
   5.1 严格遵守robots相关协议
   5.2 URL中的目录区分大小写

6、注释:使用#进行注释的编写,如:#这里是注释的内容
上一篇:没有了
下一篇:没有了

© 2001-智码IT网 www.itxp365.com版权所有

蜀ICP备2021001527号