就我所知的很多搜索的spider是完全的流氓,在抓取寄主信息从不照顾一下robots.txt,同时模仿IE而不告诉别人自己是一个机器人身份.
希望所有的搜索公司都可以做到 抓取时照顾一下robots.txt
请求文件时适当的检查文件是否更新
最好支持Crawl-delay命令 可以适当控制抓取频率
所以还是请蜘蛛应对寄主学会礼貌