SEO所搜引擎优化之robots.txt文件基础知识
发布:智码IT网 阅读:
robots.txt文件一般放在网站的根目录,用于告诉搜索引擎:
1、哪些URL是不想被搜索引擎收录的(使用Disallow属性),比如后台管理页面等一般是不希望被搜索引擎搜录入的;
2、哪些URL是希望被指定搜索引擎收录的(使用Allow属性);
【格式】
1、User-agent:搜索引擎robot的名字。
1.1、*表示对任何robot均有效;
1.2、只能有一条 User-agent:* 记录;
1.3、如果在"robots.txt"文件中,加入多个"User-agent:SomeBot"及对应的Disallow、Allow行,则 SomeBot 只受其后面的 Disallow和Allow行的限制;
2、Disallow:不希望被访问的一组URL,该URL是一条完整的路径 或 路径的非空前缀。
2.1 "Disallow:/help" :表示禁止访问以 /help前缀 的URL,如/help.html、/helpabc.html、/help/index.html等
2.2 "Disallow:/help/":表示禁止访问以 /help/目录前缀 的URL,如/help/index.html不允许访问,/help.html、/helpabc.html等是可以访问的。
2.3 "Disallow:"表示允许robot访问该网站的所有url。
2.4 至少要有一条Disallow记录,如没有,则网站对所有搜索引擎的robot开放。
3、Allow:希望被访问的一组URL,该URL是一条完整的路径 或 路径的前缀
3.1 "Allow:/hibaidu":允许访问以 /hibaidu 为前缀的URL,如 /hibaidu.htm、/hibaiducom.html、/hibaidu/com.html等。
3.2 一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。
4、模糊匹配URL
4.1 "*" 匹配0或多个任意字符
4.2 "$" 匹配行结束符
5、百度
5.1 严格遵守robots相关协议
5.2 URL中的目录区分大小写
6、注释:使用#进行注释的编写,如:#这里是注释的内容