2008-02-17
TAG:搜索相关 .net
1、由于web2.0的思想深入人心,网站加上海量网民参与制造出的信息每年成倍数的增加,虽然搜索帮助我们可以找到想要的信息,但却无法指导人们哪些信息是最值得阅读的。

2、目前新闻媒体分为两类,以新浪为代表的是传统人工编辑发布的方式提供信息,另一种是百度新闻 GOOGLE新闻为代表的机器推荐阅读方式。

3、从05年开始国内也出现了奇虎、大旗、抓虾、哪吒、Digg等基于论坛或博客信息的聚合,但在我看来他们根本上和新浪这种人工编辑信息方式没有太大的区别。...



 
2008-01-19
TAG:搜索相关 随笔
今天不讨论技术,太困了。有时候脑子里总有一些感触,如果当时不记录下来很快就淡忘了,所以趁着现在还清醒就写出来,好为以后的工作做整理。(现在脑子可能不清醒,所以可能写出来的句子语无伦次,管他呢,这是我的博客对不对?呵呵)

OK。搜索当深入研究会慢慢体会到很多东西和一些以前不曾体会到的应用。它确实改变了我们获取信息的方式,但搜索不仅仅能做到这一点,对于研发搜索的人员来说,搜索是引诱用户输入关键词的一个应用。

当用户输入的关键词越来越多,我们记录下来你搜索的是什...



 
2007-11-15
TAG:搜索相关 算法
最大匹配的问题在于时间耗费太大,原因在于二字词占有绝大的数量,故采用增字最大匹配。原理是是先切分出一个长为二的字符串,在词典中查找这个字符串是否是一个词的前缀,如果不是,再查是否是一个二字词;如果这个字符串是一个词的前缀,则切分时增加一个字即长为三的字符串,再重复步骤,至到查找到不是词的前缀而是一个词为止。



 
2007-10-31
TAG:搜索相关 算法

百度在中国是毫无疑问的搜索引擎中的第一,其在这个领域内也宣称比其他引擎更懂中文搜索。所以对百度搜索引擎的研究可以提高我们对搜索的认识,也为我们研发自己的搜索引擎提供了参照物并可以少走很多弯路。中文搜索引擎的第一个关键解决的是中文分词部分。中文分词的好坏影响到搜索引擎前端用户查询处理到后端的数据索引,所以中文分词的意义巨大。

目前百度 GOOGLE Yahoo搜索引擎采取的中文分词在细节上略有不同,但在大方向还是一致的。基于语义分词,在产生歧义词和登陆词部分采用正向最大匹配、反向最大匹配、双向最大匹配、N-最短路径算法、等等进行消歧 ==来达到用户搜索的命中率和准确率..............





 
2007-10-28
TAG:算法 搜索相关
当中文分词限制在搜索引擎范畴内,我们所说的中文分词和问答系统中的中文分词就有很大的不同。在搜索引擎中我们最大的目的是要把用户想要的信息提供给用户,而不是把中文分词做到能够把所有句子都做最合理的区分。

我经过一段时间的研究琢磨出来一点东西出来,在这里和大家稍微分享一下,至于代码因为属于公司就不方便拿出来了,在这里只谈大概思路。

最理想化的分词,应最好包含语义分词和二元分词两种组合,语义分词虽然可以提高更精确的提取中文中最为准确的词,但显然他做不到100%,而当语义分词对具有歧异和不能处理的语句时,则采用二元分词进行处理。不能完全依靠语义分词来做索引,如果你这样做了一定会把一些应该分出来的词没有分出来,这样用户就无法搜索出想要的词,你做的不是问答系统而是搜索引擎,因为应用的方向不同,所以采取的策略就应该有针对性。

但实际来说 语义分词+二元分词这种模式...



 
2007-06-17
TAG:.net 搜索相关
1、Google和百度几年前的成功一直延续到了现在,对于粘性不强的搜索服务,几乎所有的人都认为:未来搜索仍将会有更大的空间,所以在中国搜索这个领域又多了搜狗 中搜  爱问 ==。

2、懂得搜索技术的朋友都知道,搜索第一个大门槛就是数据的存储机制,当你的数据每天超过百万级的增加的时候,分布存储数据/索引 就成了一定要解决的问...



 
2007-04-17
TAG:搜索相关
就我所知的很多搜索的spider是完全的流氓,在抓取寄主信息从不照顾一下robots.txt,同时模仿IE而不告诉别人自己是一个机器人身份.

希望所有的搜索公司都可以做到 抓取时照顾一下robots.txt

请求文件时适当的检查文件是否更新

最好支持Crawl-delay命令 可以适当控制抓取频率

所以还是请蜘蛛应对寄主学会礼貌

 

...



 
2007-04-15
TAG:搜索相关
基于既定词表的自适应汉语分词技术研究

黄水清  程冲

[摘要] 本文提出了一种汉语分词算法。在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。

[关键词] 自动分词 新词识别 未登录词

[分类号] TP391

 Study of self-adaptive matching method in Chinese segm...



 
2007-03-21
TAG:搜索相关
这里我只谈运营门户系统的信息配发机制。现在每天voosay更新的信息量在1500-2500之间,这些信息来自于众多的博客。

在voosay门户下有18个频道左右,每天更新的信息通过机器筛选过滤能够正确分发到指定频道的机会指在70左右,这中间还存在一些人为的干扰,所以可能会出现在军事里面有关于女人的文章的出现。

机器在某些方面永远赶不上人类。每天定期的抓取大概需要10分钟左右,机器作第一次筛选分类,然后再人工做一次分类,这样可以保证信息配发的准确性,下面我要实现的是每天花在voosay首页排版以及信息配发的时间在一个小时以内。

信息配发:机器筛选+人工分类

 

...



 
2006-07-11
TAG:搜索相关

using System;
using System.Collections.Specialized;
using System.Text.RegularExpressions;

namespace UrlParse
{
    
/**//// 
    
/// 分析 url 字符串中的参数信息
    
/// 

    class Class1
    
{
        
/**//// 
        
/// 应用程序的主入口点。
        
/// 

        [STAThread]
        
static void Main(string[] args)
        
{
            
string url = "http://www.xxx.com/xyz/hello.asp?a=3&typeId=45&cc=ILoveYou";
            NameValueCollection nvc;
            
string baseUrl;

            ParseUrl(url, 
out baseUrl, out nvc);

            
// output results
            Console.WriteLine("baseUrl: {0}", baseUrl);
            Console.WriteLine(
"parameters:");

            
for (int i = 0; i < nvc.Count; i++)
                Console.WriteLine(
"{0}, {1}", nvc.KeysIdea [I], nvcIdea [I]);

            Console.ReadLine();
        }


        
/**//// 
        
/// 分析 url 字符串中的参数信息
        
/// 
        
/// 输入的 URL
        
/// 输出 URL 的基础部分
        
/// 输出分析后得到的 (参数名,参数值) 的集合
        
/// 木野狐(Neil Chen)
        
/// 2005-06-23

        static void ParseUrl(string url, out string baseUrl, out NameValueCollection nvc) {
            
if (url == null)
                
throw new ArgumentNullException("url");

            nvc 
= new NameValueCollection();
            baseUrl 
= "";

            
if (url == "")
                
return;            
            
            
int questionMarkIndex = url.IndexOf(?);
            
            
if (questionMarkIndex == -1{
                baseUrl 
= url;
                
return;
            }

            baseUrl 
= url.Substring(0, questionMarkIndex);
            
if (questionMarkIndex == url.Length - 1)
                
return;
            
string ps = url.Substring(questionMarkIndex + 1);

            
// 开始分析参数对    
            Regex re = new Regex(@"(^|&)?(w+)=([^&]+)(&|$)?", RegexOptions.Compiled);
            MatchCollection mc 
= re.Matches(ps);

            
foreach (Match m in mc) {                
                nvc.Add(m.Result(
"$2"), m.Result("$3"));
            }
        
        }

    }

}




分页 共4页 1 2 3 4 下一页 最后一页
wwpizi@gmail.com
emir123456@hotmail.com
emir123456@yahoo.com.cn
我的档案:

访问统计: