2007-11-19
TAG:
1、很多事情看起来很复杂,那只是因为你把她想复杂了,事情其实很简单

事情变得复杂,是因为很多浮华的东西遮住了眼睛,擦掉它们,你就知道其实一切都很简单

2、IBM关注技术可行性,微软关注商业可行性,苹果关注用户期望度

在这三个公司中,我一直坚信IBM会活得更长久,你认为呢?

3、对于自己,要在一个方向去积累

你能,不是你比别人聪明,是因为你比别人用的时间多。

4、不在错误...



 
2007-11-15
TAG:搜索相关 算法
最大匹配的问题在于时间耗费太大,原因在于二字词占有绝大的数量,故采用增字最大匹配。原理是是先切分出一个长为二的字符串,在词典中查找这个字符串是否是一个词的前缀,如果不是,再查是否是一个二字词;如果这个字符串是一个词的前缀,则切分时增加一个字即长为三的字符串,再重复步骤,至到查找到不是词的前缀而是一个词为止。



 
2007-11-08
TAG:随笔

    今天看到一个老奶奶带着一个小女孩在路边坐着,在老奶奶身边放着很多矿泉水瓶,也许祖孙两是靠捡破烂为生的。小女孩很乖,用小小的手为奶奶锤背,我看到这些心里很酸。

     虽然很多朋友告戒我不要太滥情,世界上那么多可怜的人你帮不过来完况且有那么多骗子。可我还是拿出来30多块钱去超市买了面包和火腿肠送给了她们。当我回家的路上心里很难过,这么冷的天 她们穿的那么少,冬天怎么熬过去? 象这样的人 在中国还能有多少 ?

我们一直都知道,有这样的人群,他们的要求很简单,只要我们一点点地帮助,他们就可以快乐很多。但在平常的日子里,谁又会真正想到他们呢?大部分人也只有在这一刻,被点醒感动之余,才会问问自己能为他们做些什么,但能做什么呢?放下自己的事业发展去奉献青春?在目前这样的环境下,你的青春能够燃烧多久,烧光以后又便如何呢?绝大多数的人都做不到。或者捐钱捐物,贡献一点爱心?而通过什么渠道去帮助,而又怎样确定这钱这物最后能真正产生效用,大家都还懵懵懂懂。
于是,这样的感动,便也只当涤荡了一次心灵,明日醒来,忙碌的都市忙碌的工作,我们便又是原来的自己了。

可是有些时候我们扪心自问,难道我们真的不能做些什么吗?还记得04年感动中国的徐本禹吗?当年正是看了他的事迹影响我去捐助贵州山区的两个姐弟上学的,可是自从毕业来北京以后受环境和周围的影响也逐渐的对很多事情很多现象变得越来越麻木,开始为了一些所谓的感情死去活来,开始怨天尤人,开始感觉生活的无情趣,从没有想过在这个世界上的很多角落有很多善良淳朴的人在为生存为努力的生活着。

今天我从互联网花了很长时间找到一些介绍山区孩子的图片和文字,希望看这篇文章的你如同我一样的感动,也希望在看完这篇文章之后真正的行动起来,哪怕一点点地帮助也会产生大大的快乐。

--------------------------------------------------

大方县位于贵州省西北部的乌蒙山区,隶属毕节地区,距贵阳200多公里。全县人口90万,除汉族外,还有彝、苗、白、仡佬、蒙古、布依、满等少数民族。全县面积3500多平方公里,辖10个镇、8个乡、18个民族乡,县府驻大方镇。农业主产玉米、油菜、马铃薯、水稻等,特产有生漆、皱椒、烤烟。区域经济落后,交通、通讯、能源等基础设施薄弱,农民生活非常贫困。

 

 





 
2007-11-01
TAG:随笔
花了将近2个多星期时间终于完成了中文分词部分的研发工作,事实上结果比预期的更好,不但在中文分词部分能够达到正规搜索引擎的分词质量,更为重要的是掌握了很多正规搜索引擎应该做的细节点,而且完成了内容聚类和图片搜索的工作。

接下来将把中文分词成果移植到我们已有的系统中,另外抽时间把图片搜索上线(目前搜索了16万张图片的数据)。

这里对公司表示感谢,没有几家公司可以给员工这么大的空间去做这样有意思的事情,而幸运的是我在这样的公司工作,所以心存感谢。

...



 
2007-10-31
TAG:随笔
今天从开复李那里看到了一篇文章,很有感触,文章讲的是兰迪·波许教授在我们的母校卡内基·梅隆大学做了一场风靡全美的讲座,题目是《真正实现你的童年梦想》,而兰迪患了胰腺癌,只剩下几个月的生命,也就是说这次演讲就是他一生最后的演讲了。

想阅读原文的请点击这里。

兰迪是一个坚强的人更是一个伟大的人。他的演讲仿佛把我的心灵重新清洗了一般。Lead Your Life 是的 我们要用梦想去引领我们的一生,而不是匆匆忙忙过一生。虽然现实生活中有那么多压力压迫着我们去做自己不想做的事情...



 
2007-10-31
TAG:搜索相关 算法

百度在中国是毫无疑问的搜索引擎中的第一,其在这个领域内也宣称比其他引擎更懂中文搜索。所以对百度搜索引擎的研究可以提高我们对搜索的认识,也为我们研发自己的搜索引擎提供了参照物并可以少走很多弯路。中文搜索引擎的第一个关键解决的是中文分词部分。中文分词的好坏影响到搜索引擎前端用户查询处理到后端的数据索引,所以中文分词的意义巨大。

目前百度 GOOGLE Yahoo搜索引擎采取的中文分词在细节上略有不同,但在大方向还是一致的。基于语义分词,在产生歧义词和登陆词部分采用正向最大匹配、反向最大匹配、双向最大匹配、N-最短路径算法、等等进行消歧 ==来达到用户搜索的命中率和准确率..............





 
2007-10-28
TAG:算法 搜索相关
当中文分词限制在搜索引擎范畴内,我们所说的中文分词和问答系统中的中文分词就有很大的不同。在搜索引擎中我们最大的目的是要把用户想要的信息提供给用户,而不是把中文分词做到能够把所有句子都做最合理的区分。

我经过一段时间的研究琢磨出来一点东西出来,在这里和大家稍微分享一下,至于代码因为属于公司就不方便拿出来了,在这里只谈大概思路。

最理想化的分词,应最好包含语义分词和二元分词两种组合,语义分词虽然可以提高更精确的提取中文中最为准确的词,但显然他做不到100%,而当语义分词对具有歧异和不能处理的语句时,则采用二元分词进行处理。不能完全依靠语义分词来做索引,如果你这样做了一定会把一些应该分出来的词没有分出来,这样用户就无法搜索出想要的词,你做的不是问答系统而是搜索引擎,因为应用的方向不同,所以采取的策略就应该有针对性。

但实际来说 语义分词+二元分词这种模式...



 
2007-10-25
TAG:随笔

2年前来北京只是想让自己放松一下,没有想到因为一些事情在这个不太喜欢的城市里一待就是2年。这两年经历了很多事情,当一些事情最终划上句号,也要放开给自己未来。

从小我都顺风顺水,也许什么事情都太顺的缘故,自己性格中会有别人嘴里说的嚣张和偏执。大学受不了枯燥无趣的军校生活,义无反顾的退学,后来到了河南师范大学没有看得上的老师就经常性的不去上课,考试都是靠最后1个星期的突击提心吊胆的勉强应付过去,大一下学期自己出去租房住很少回学校再上课,直到大学毕业时好多的班里的同学都不认识我。

后来迷上了计算机,于是把所有的时间都泡在计算机上,其间抓住了一些机会赚了一些在当时看来很多的钱就越发的离不开计算机,从来没有想过以后怎么办能不能毕业的问题。英语四级我考了4次,第一次23分,中间两次没有去考都是零蛋,最后一次同学告诉我考不过不给学位证我才知道事情的严重性,好歹总算考过了,最后毕业时我去教务处领毕业证和学位证,教务处主任和我说“你小子能毕业简直是个奇迹”。





 
2007-10-23
TAG:.net
这是俊杰兄提供给我的队列代码,现帖出来提供给大家  

namespace JJBase.ARITHMETIC
{
    using System;

    [Serializable]
 
    public class Queue
    {
        private object[] _array;
        private int _growFactor;
  &...



 
2007-10-19
TAG:
什么是中文分词技术 

 中文分词技术是一种将连续的汉语文本序列按一定规则拆分为具有独立语义的词组的过程。中文分词是当前分词技术中的一种,分词技术从语言文本结构上来讲大致有两类:一类以英文为代表的西方语言文本,其文本中的词组以空格做为自然间隔,从语义准确性及技术复杂度来讲都比较简单。另一类是以汉语为代表的东亚语言文本,由于文本是由连续文字组成,缺乏有效的间隔,虽有句、段分隔,但在进行机器语言学习、文本语义理解分析过程中都需以词组为最小单位。因此东亚文本语言实现分词技术相对西方文本语言来讲, 更加的复杂和困难。

搜索引擎的核心是全文检索。而中文全文检索里的核心则就是中文分词技术。在网上有很多讲解中文分词的文章,而这些文章重点讲的是中文分词技术的不同的实现方法,各种方法...



分页 共37页 第一页 上一页 1 2 3 4 5 6 7 8 9 10 下一页 最后一页
wwpizi@gmail.com
emir123456@hotmail.com
emir123456@yahoo.com.cn
我的档案:

访问统计: