2007-04-17
TAG:搜索相关

就我所知的很多搜索的spider是完全的流氓,在抓取寄主信息从不照顾一下robots.txt,同时模仿IE而不告诉别人自己是一个机器人身份.

希望所有的搜索公司都可以做到 抓取时照顾一下robots.txt

请求文件时适当的检查文件是否更新

最好支持Crawl-delay命令 可以适当控制抓取频率

所以还是请蜘蛛应对寄主学会礼貌

 






坯子 @ 16:12:33 | 引用 0 | 编辑



评论
发表评论
 姓名: 
 E-mail: 
 地址: