2007-06-17
TAG:.net 搜索相关

1、Google百度几年前的成功一直延续到了现在,对于粘性不强的搜索服务,几乎所有的人都认为:未来搜索仍将会有更大的空间,所以在中国搜索这个领域又多了搜狗 中搜  爱问 ==。

2、懂得搜索技术的朋友都知道,搜索第一个大门槛就是数据的存储机制,当你的数据每天超过百万级的增加的时候,分布存储数据/索引 就成了一定要解决的问题,你需要购置很多很多的服务器和带宽。做一个类似百度这样的搜索,你最少需要上百台台服务器以上,google在全球都部署了大约3万多台服务器,他们的存储机制是特殊的。

3、在中文搜索的门槛里,还有中文分词、词性相关性、海量数据的聚合机制、噪音过滤、消除死链==。

4、目前Voosay的数据量比上一个月扩充100多倍,今天把博客源扩大了一倍,数据量、访问量都快速上升,现在对我来说最大的问题就是分布式存储。

 






坯子 @ 23:09:37 | 引用 0 | 编辑



评论
发表评论
 姓名: 
 E-mail: 
 地址: