Robots.txt写法小结
Posted in 未分类 on 07/27/2010 08:25 上午 by MartsRobots.txt文档以User-agent: 开头,标识语句对应的搜索引擎机器人,后面跟上Disallow: 和Allow:表示起作用的链接。
User-agent: baiduspider 表示对百度机器人起作用。
User-agent: * 表示对所有搜索引擎机器人起作用。
Robots.txt文档中至少要有一条User-agent:记录而User-agent: * 记录只允许有一条。
Disallow: /sem580 表示不允许搜索引擎访问或者收录/sem580.html、/sem580/index.html、/sem580.php等包含/sem580的链接,而Disallow: /sem580/则允许访问/sem580.html、/sem580.php等,但是禁止访问/sem580/index.html。
Disallow: / 表示禁止搜索引擎机器人访问收录所有页面。
Disallow: 表示允许搜索引擎访问收录所有页面。
Allow: /sem580 表示允许搜索引擎访问或者收录/sem580.html、/sem580/index.html、/sem580.php等包含/sem580的链接,而Allow:/sem580/则表示允许搜索引擎机器人访问/sem580/index.html等链接,但是对/sem580.html、/sem580.php未置可否。
“*”和“$”通配符
Disallow: */comments 表示不允许访问和收录所有wordpress评论留言页面。比如:http://www.sem580.com/born/tianxieyumingzhuanchushenqingbiao.html#comment-3715 是禁止收录的。
Disallow: /category/*/page/ 表示禁止访问和收录分类的相关分页。比如SEM580博客中网页设计分类有很多页面:
http://www.sem580.com/category/design/page/2
记录中用“*”通配符表示了分类的别称“design”。
Disallow: .jpg$ 和Disallow: .php$ 分别表示禁止访问收录“,jpg”和“.php”后缀的文件
==============================================
User-agent: *
Disallow: /*?* (屏蔽搜索引擎机器人收录动态网页,因为/?q=id也是能访问文章的哦!)
Disallow: /page-* (屏蔽以page-开头的所有页面,比如www.sem580.com/page-1)
Disallow: /category/*/page/
Disallow: /tag/*/page/
Sitemap: http://www.sem580.com/sitemap.xml (这个用来告诉搜索引擎sitemap的路径,我用了两个)
07/28/2010 at 7:53 下午
留个脚印
08/11/2010 at 1:03 下午
This is such a great resource that you are providing and you give it away for free. I enjoy seeing websites that understand the value of providing a prime resource for free. I truly loved reading your post. Thanks!