信息检索

向量空间分类

Posted in classifier on November 19th, 2009 by laomi – Be the first to comment

介绍部分

普通的文本分类的方法例如朴素贝叶斯分类的方法,文档的表达方式只是简单的二进制向量(binary vector)的方法,普通点说法就是在文档表达时只是表达这个术语(term)在文档中有和无,如果文档中包含的话就是有记为1,文档中没有的话就记为无。举个例子来说明一下,例如有两个一句话文档:

Document 1: China is beautiful.

Document2: USA is a good country.

对于上面的两个文档来说,我可以建档的通过一个表格来表示上面的意思(在表格中的数据就是表示term的有和无,在这里我们讲去掉停词表中的is 和 a)

文档 China USA Beautiful Good Country
Document1 1 0 1 0 0
Document2 0 1 0 1 1

所以对于document1来说他的向量表示为(1,0,1,0,0),对于Document2来说其向量表示为(0,1,0,1,1),但是在信息检索中的计算得分的部分,我们可以知道术语在文档中是有权重的,而在朴素贝叶斯分类中并没有添加权重部分。向量空间分类就是将要权重加到向量中,也就是有真实值的向量了(有权值了)。

向量空间分类(Vector space classification) 是基于一个假设条件进行了,这个假设是:邻近假设(Contiguity hypothesis)

Contiguity hypothesis: Document in the same class from a continuous region and the regions of different classes do not overlap.

邻近假设的主要意思就是在不同的类型的文档时没有重叠的,且同一类型文档的连续区域中也是没有重叠的。

在向量空间分类中主要分为两种,一种是Rocchio分类,另外一种是k邻近分类(K Nearest Neighbor)。

向量空间的表达其实以前就接触过,向量的表达方式主要是采用词条的权重来描述文档的,在分类方法中,我们常常会使用在平面上以点的形式来描述文档的向量,但是我们知道,真实的文档向量是一个以向量长度作为归一化的、只想球形表面的单位向量。 read more »

向量空间模型

Posted in 信息检索 on July 31st, 2009 by laomi – Be the first to comment

我们已经知道了词条权重怎么去计算,词条权重的计算也是为后面信息检索或者是做推荐系统的推荐来做服务,将评分最高的数据显示在最前面或者是推荐给系统的使用者(对推荐系统来说的)。而向量空间模型(vector space model)就是其中的一种很普遍的计算scoring的一中方法。

对于信息检索的系统来说,向量空间模型主要是将查询的词条与索引的数据进行计算,一般直接的表现方式是计算向量之间的余弦值。我们知道只有当两个向量的余弦值为1的时候,那么他们之间的夹角是为0的,这种情况下我们就认为这与查询的结果最近似。在搜索引擎中,通过这样的计算查询条件的此条与被被查询的文档之间的词条的得分来对搜索结果进行排序。

对于推荐系统来说,推荐系统的一个很主要的特征就是根据用户的历史记录或者是描述用户的特征数据来向用户推荐信息。比如在一个购书网站例如china-pub,系统可以根据你在网站中的访问记录来给你推荐你可能感兴趣的书籍。对于一个社交网来说,可能依据是你的好友信息来推荐信息给你,对于这样的推荐形式大概可以分为:通过分析你的个人的浏览记录和个人的喜好来推荐信息给用户,另外一种方式是通过好友的信息来做推荐。 read more »

评分和词条权重计算

Posted in 信息检索 on July 27th, 2009 by laomi – 3 Comments

直观上去评价一个搜索引擎的好坏的一个标准就是搜索结果是否能够令用户满意,这个对于搜索引擎来说直接在于结果的排序。对于排序的不同标准来说,并提到了权重的计算和搜索结果评分。

对于布尔检索来说,例如做一个查询”徐佳佳是信息检索学习博客的作者”这样的信息,一般我们在Google或者是Baidu中我们会在搜索框输入”徐佳佳  信息检索”。对于布尔检索系统来说,这里它所作的操作就是“徐佳佳”和“信息检索”做了and操作,如果仅仅是这样的话,它是直接返回网页中有“徐佳佳”和“信息检索”结果而已,也许它返回的第一个结果是其他的blog中描写“徐佳佳的信息检索学习的博客写的很垃圾”这样的网站,但是作者想到找到的其实是我的博客。 read more »

超链接分析–PageRank

Posted in 信息检索 on June 30th, 2009 by laomi – Be the first to comment

我们知道,在评价一篇论文它是否是这个领域当中比较优秀或者是代表作的方法常常是看有多少人引用它,但是这种判断方法可以使用自己引用自己或者作者之间互相引用而达到作弊,现在对于论文的影响因子的作弊方法计算相对复杂。pagerank的算法思想借助于文献计量学(Bibliometrics)。

在浩瀚的网络环境中,我们可以将互联网可以看成是文档之间超链接组成的有向图,其中节点是互联网中的文档,而边则是互联网之间的超链接。我们访问网页的时 候总是习惯于首先输入一个网址,然后在根据网站上的链接,进入其他的网站。对于这种情况我们认为他是一个random suffer,他首先进入一个网页,然后又以一个随机的方式进入另一个网页。在pagerank算法中实际中分两种,一种是主题相关的,另一种是与主题无 关的。例如:当random suffer进入网页A,而A又有三个指向其他三个网页的超链接B,C,D那么他有A到B,C或者D的概率就是1/3。对于从互联网中的一个网站进入到另 一个网站,我们可以与一维马尔可夫链的性质联系起来,对于马尔可夫链来说是从一个状态转换到另一个状态。当马尔科夫链达到稳定状态时,所求出来的转移矩阵 的值,就称为pagerank的值。 read more »