Posts Tagged ‘向量空间模型’

向量空间分类

Posted in classifier on November 19th, 2009 by laomi – Be the first to comment

介绍部分

普通的文本分类的方法例如朴素贝叶斯分类的方法,文档的表达方式只是简单的二进制向量(binary vector)的方法,普通点说法就是在文档表达时只是表达这个术语(term)在文档中有和无,如果文档中包含的话就是有记为1,文档中没有的话就记为无。举个例子来说明一下,例如有两个一句话文档:

Document 1: China is beautiful.

Document2: USA is a good country.

对于上面的两个文档来说,我可以建档的通过一个表格来表示上面的意思(在表格中的数据就是表示term的有和无,在这里我们讲去掉停词表中的is 和 a)

文档 China USA Beautiful Good Country
Document1 1 0 1 0 0
Document2 0 1 0 1 1

所以对于document1来说他的向量表示为(1,0,1,0,0),对于Document2来说其向量表示为(0,1,0,1,1),但是在信息检索中的计算得分的部分,我们可以知道术语在文档中是有权重的,而在朴素贝叶斯分类中并没有添加权重部分。向量空间分类就是将要权重加到向量中,也就是有真实值的向量了(有权值了)。

向量空间分类(Vector space classification) 是基于一个假设条件进行了,这个假设是:邻近假设(Contiguity hypothesis)

Contiguity hypothesis: Document in the same class from a continuous region and the regions of different classes do not overlap.

邻近假设的主要意思就是在不同的类型的文档时没有重叠的,且同一类型文档的连续区域中也是没有重叠的。

在向量空间分类中主要分为两种,一种是Rocchio分类,另外一种是k邻近分类(K Nearest Neighbor)。

向量空间的表达其实以前就接触过,向量的表达方式主要是采用词条的权重来描述文档的,在分类方法中,我们常常会使用在平面上以点的形式来描述文档的向量,但是我们知道,真实的文档向量是一个以向量长度作为归一化的、只想球形表面的单位向量。 read more »

向量空间模型

Posted in 信息检索 on July 31st, 2009 by laomi – Be the first to comment

我们已经知道了词条权重怎么去计算,词条权重的计算也是为后面信息检索或者是做推荐系统的推荐来做服务,将评分最高的数据显示在最前面或者是推荐给系统的使用者(对推荐系统来说的)。而向量空间模型(vector space model)就是其中的一种很普遍的计算scoring的一中方法。

对于信息检索的系统来说,向量空间模型主要是将查询的词条与索引的数据进行计算,一般直接的表现方式是计算向量之间的余弦值。我们知道只有当两个向量的余弦值为1的时候,那么他们之间的夹角是为0的,这种情况下我们就认为这与查询的结果最近似。在搜索引擎中,通过这样的计算查询条件的此条与被被查询的文档之间的词条的得分来对搜索结果进行排序。

对于推荐系统来说,推荐系统的一个很主要的特征就是根据用户的历史记录或者是描述用户的特征数据来向用户推荐信息。比如在一个购书网站例如china-pub,系统可以根据你在网站中的访问记录来给你推荐你可能感兴趣的书籍。对于一个社交网来说,可能依据是你的好友信息来推荐信息给你,对于这样的推荐形式大概可以分为:通过分析你的个人的浏览记录和个人的喜好来推荐信息给用户,另外一种方式是通过好友的信息来做推荐。 read more »