2007-11-15
TAG:搜索相关 算法
最大匹配的问题在于时间耗费太大,原因在于二字词占有绝大的数量,故采用增字最大匹配。原理是是先切分出一个长为二的字符串,在词典中查找这个字符串是否是一个词的前缀,如果不是,再查是否是一个二字词;如果这个字符串是一个词的前缀,则切分时增加一个字即长为三的字符串,再重复步骤,至到查找到不是词的前缀而是一个词为止。



 
2007-10-31
TAG:搜索相关 算法

百度在中国是毫无疑问的搜索引擎中的第一,其在这个领域内也宣称比其他引擎更懂中文搜索。所以对百度搜索引擎的研究可以提高我们对搜索的认识,也为我们研发自己的搜索引擎提供了参照物并可以少走很多弯路。中文搜索引擎的第一个关键解决的是中文分词部分。中文分词的好坏影响到搜索引擎前端用户查询处理到后端的数据索引,所以中文分词的意义巨大。

目前百度 GOOGLE Yahoo搜索引擎采取的中文分词在细节上略有不同,但在大方向还是一致的。基于语义分词,在产生歧义词和登陆词部分采用正向最大匹配、反向最大匹配、双向最大匹配、N-最短路径算法、等等进行消歧 ==来达到用户搜索的命中率和准确率..............





 
2007-10-28
TAG:算法 搜索相关
当中文分词限制在搜索引擎范畴内,我们所说的中文分词和问答系统中的中文分词就有很大的不同。在搜索引擎中我们最大的目的是要把用户想要的信息提供给用户,而不是把中文分词做到能够把所有句子都做最合理的区分。

我经过一段时间的研究琢磨出来一点东西出来,在这里和大家稍微分享一下,至于代码因为属于公司就不方便拿出来了,在这里只谈大概思路。

最理想化的分词,应最好包含语义分词和二元分词两种组合,语义分词虽然可以提高更精确的提取中文中最为准确的词,但显然他做不到100%,而当语义分词对具有歧异和不能处理的语句时,则采用二元分词进行处理。不能完全依靠语义分词来做索引,如果你这样做了一定会把一些应该分出来的词没有分出来,这样用户就无法搜索出想要的词,你做的不是问答系统而是搜索引擎,因为应用的方向不同,所以采取的策略就应该有针对性。

但实际来说 语义分词+二元分词这种模式...



 
2007-09-30
TAG:算法
10.1基本概念
排序(Sorting)是计算机程序设计中的一种重要操作,其功能是对一个数据元素集合或序列重新排列成一个按数据元素某个项值有序的序列。作为排...



 
2006-06-10
TAG:算法

javascript 的几种排序方法

算法和数据结构 不错的网站 值得学习

EIF

C#排序算法大全

正所谓道可道,非常道。编程之道就如武学之道,VB,VC,delphi等开发工具的技巧好比各门各派的武功招式,算法和数据结构好比内功心法和武学原理。内力深厚,任何招式到了手上都能够化腐朽为神奇;掌握了武学原理,更能做到无招胜有招。

 





分页 共1页 1
wwpizi@gmail.com
emir123456@hotmail.com
emir123456@yahoo.com.cn
我的档案:

访问统计: