向量空间模型

Posted: July 31st, 2009 | Author: laomi | Filed under: 信息检索 | Tags: , , | No Comments »

我们已经知道了词条权重怎么去计算,词条权重的计算也是为后面信息检索或者是做推荐系统的推荐来做服务,将评分最高的数据显示在最前面或者是推荐给系统的使用者(对推荐系统来说的)。而向量空间模型(vector space model)就是其中的一种很普遍的计算scoring的一中方法。

对于信息检索的系统来说,向量空间模型主要是将查询的词条与索引的数据进行计算,一般直接的表现方式是计算向量之间的余弦值。我们知道只有当两个向量的余弦值为1的时候,那么他们之间的夹角是为0的,这种情况下我们就认为这与查询的结果最近似。在搜索引擎中,通过这样的计算查询条件的此条与被被查询的文档之间的词条的得分来对搜索结果进行排序。

对于推荐系统来说,推荐系统的一个很主要的特征就是根据用户的历史记录或者是描述用户的特征数据来向用户推荐信息。比如在一个购书网站例如china-pub,系统可以根据你在网站中的访问记录来给你推荐你可能感兴趣的书籍。对于一个社交网来说,可能依据是你的好友信息来推荐信息给你,对于这样的推荐形式大概可以分为:通过分析你的个人的浏览记录和个人的喜好来推荐信息给用户,另外一种方式是通过好友的信息来做推荐。 Read the rest of this entry »


评分和词条权重计算

Posted: July 27th, 2009 | Author: laomi | Filed under: 信息检索 | Tags: , , , | 3 Comments »

直观上去评价一个搜索引擎的好坏的一个标准就是搜索结果是否能够令用户满意,这个对于搜索引擎来说直接在于结果的排序。对于排序的不同标准来说,并提到了权重的计算和搜索结果评分。

对于布尔检索来说,例如做一个查询”徐佳佳是信息检索学习博客的作者”这样的信息,一般我们在Google或者是Baidu中我们会在搜索框输入”徐佳佳  信息检索”。对于布尔检索系统来说,这里它所作的操作就是“徐佳佳”和“信息检索”做了and操作,如果仅仅是这样的话,它是直接返回网页中有“徐佳佳”和“信息检索”结果而已,也许它返回的第一个结果是其他的blog中描写“徐佳佳的信息检索学习的博客写的很垃圾”这样的网站,但是作者想到找到的其实是我的博客。 Read the rest of this entry »


实时搜索OneRiot

Posted: July 25th, 2009 | Author: laomi | Filed under: 江湖消息 | Tags: , , | No Comments »

前段时间老板一直催着我要实时搜索引擎,自己常常不以为然,因为现在炒作概念炒作的实在是太夸张了。但是什么是搜索引擎?直观上理解就是能够及时的在搜索结果中展现搜索相关的最近内容。在The Inner Workings of a Realtime Search Engine中指出:在搜索引擎的用户中,有60%的人用它来寻找特定的信息和导航信息(比如为了查找 rushcj.com等特定的主页信息),其他的40%的人是想知道设个时候发生什么或者是特定的话题最近进展,而实时搜索引擎就能很好的解决这个问题。

对于搜索引擎来说,一般的过程是:先将相关的网页信息从网络上爬去下来,然后对网页的内容进行抽取(对于中文还需要分词),然后建立索引,建立索引之后的索引库就可以给用户进行检索信息的。基于这个过程我们可以知道,用户想要或得实时的数据信息,那么这一过程就必须在比较短的时间内完成,因为之后进入索引库之后的数据才能够被用户检索。 Read the rest of this entry »


最近状况

Posted: July 22nd, 2009 | Author: laomi | Filed under: 心情日志 | Tags: , | No Comments »

说起来自己还真的是有点不敢相信,最近一直没怎么联系的人都联系起来了,有些人甚至有5年多没有联系了。最近的心态不是很好,因为自己一直在做自己不喜欢做的事情,最主要的是看不到将来自己要走的路。
在实验室,自己真的是什么都弄过一些,什么都了解一点,但是自己一直没有固定的方向一直走下来。一个是自己一直处于迷茫的状态,另一个是……自己一直以为自己适合做工程项目,所以在实验室这边自己也一直想做SOA相关的项目,但是由于某种原因自己的方向改为了信息检索,一开始的时候还真的是不知道自己要干什 Read the rest of this entry »


语义搜索引擎—Swoogle

Posted: July 18th, 2009 | Author: laomi | Filed under: 语义搜索 | Tags: , , | No Comments »

        随着语义web的提出和owl成为w3c的规范,人们根据自己的领域需求和对事物的理解,构建了很多本体。随着本体数量的增加,如何共享这些本体也已经成为了一个问题,随之便产生了Swoogle这样的对语义web文档检索的搜索引擎。Swoogle主要有三个主要功能:搜索本体,主要是为减少在不知道有相关的本体条件下随意的创建本体,起到一个本体复用的作用,它主要是检索在文档中 的任何地方的术语(包括在注释中的术语),或者是本体汇总的类和属性的术语以及本体是要查找的术语;发掘实例数据,主要是工作查询什么类和什么属性来查询 实例(关于这一点还是有点迷糊);描述语义web的特征(characterizing the semantic web),通过对语义文档的元数据和对文档内部关系的收集。
         Swoogle从目前接触的情况来看,它之所以叫做语义搜索引擎其主要原因是因为它检索的目标是语义文档吧。它所用的技术基本上都是传统的搜索引擎所用到 的技术没有什么区别,在创建索引方面就直接使用目前的倒排索引的方式来创建索引。在做索引的时候没有用到对检索内容的推理和本体匹配的技术等等,也没有用 到。swoogel的ranking和google的pagerank原理基本上都是一样的,google的pagerank是根据网页文档当中的超连接 来进行分析,而swoogle的ranking是根据语义文档中的引用和扩展其他的本体中的概念和关系,从分析的实质上讲没有什么差别。在计算方面也比较 简单也是直接按照pagerank的算法公式差不多: Read the rest of this entry »