Robots.txt写法小结

Robots.txt文档以User-agent: 开头,标识语句对应的搜索引擎机器人,后面跟上Disallow: 和Allow:表示起作用的链接。

User-agent: baiduspider 表示对百度机器人起作用。

User-agent: * 表示对所有搜索引擎机器人起作用。

Robots.txt文档中至少要有一条User-agent:记录而User-agent: * 记录只允许有一条。

Disallow: /sem580 表示不允许搜索引擎访问或者收录/sem580.html、/sem580/index.html、/sem580.php等包含/sem580的链接,而Disallow: /sem580/则允许访问/sem580.html、/sem580.php等,但是禁止访问/sem580/index.html。

Disallow: / 表示禁止搜索引擎机器人访问收录所有页面。

Disallow:  表示允许搜索引擎访问收录所有页面。

Allow: /sem580 表示允许搜索引擎访问或者收录/sem580.html、/sem580/index.html、/sem580.php等包含/sem580的链接,而Allow:/sem580/则表示允许搜索引擎机器人访问/sem580/index.html等链接,但是对/sem580.html、/sem580.php未置可否。

“*”和“$”通配符

Disallow: */comments 表示不允许访问和收录所有wordpress评论留言页面。比如:http://www.sem580.com/born/tianxieyumingzhuanchushenqingbiao.html#comment-3715 是禁止收录的。

Disallow: /category/*/page/ 表示禁止访问和收录分类的相关分页。比如SEM580博客中网页设计分类有很多页面:

http://www.sem580.com/category/design/page/2

记录中用“*”通配符表示了分类的别称“design”。

Disallow: .jpg$ 和Disallow: .php$  分别表示禁止访问收录“,jpg”和“.php”后缀的文件

==============================================
User-agent: *

Disallow: /*?*  (屏蔽搜索引擎机器人收录动态网页,因为/?q=id也是能访问文章的哦!)

Disallow: /page-* (屏蔽以page-开头的所有页面,比如www.sem580.com/page-1)

Disallow: /category/*/page/

Disallow: /tag/*/page/

Sitemap: http://www.sem580.com/sitemap.xml (这个用来告诉搜索引擎sitemap的路径,我用了两个)

 

2 Comments

  1. 留个脚印

  2. ultrasound technician

    This is such a great resource that you are providing and you give it away for free. I enjoy seeing websites that understand the value of providing a prime resource for free. I truly loved reading your post. Thanks!

发表评论