Posts Tagged ‘权重’

向量空间分类

Posted in classifier on November 19th, 2009 by laomi – Be the first to comment

介绍部分

普通的文本分类的方法例如朴素贝叶斯分类的方法,文档的表达方式只是简单的二进制向量(binary vector)的方法,普通点说法就是在文档表达时只是表达这个术语(term)在文档中有和无,如果文档中包含的话就是有记为1,文档中没有的话就记为无。举个例子来说明一下,例如有两个一句话文档:

Document 1: China is beautiful.

Document2: USA is a good country.

对于上面的两个文档来说,我可以建档的通过一个表格来表示上面的意思(在表格中的数据就是表示term的有和无,在这里我们讲去掉停词表中的is 和 a)

文档 China USA Beautiful Good Country
Document1 1 0 1 0 0
Document2 0 1 0 1 1

所以对于document1来说他的向量表示为(1,0,1,0,0),对于Document2来说其向量表示为(0,1,0,1,1),但是在信息检索中的计算得分的部分,我们可以知道术语在文档中是有权重的,而在朴素贝叶斯分类中并没有添加权重部分。向量空间分类就是将要权重加到向量中,也就是有真实值的向量了(有权值了)。

向量空间分类(Vector space classification) 是基于一个假设条件进行了,这个假设是:邻近假设(Contiguity hypothesis)

Contiguity hypothesis: Document in the same class from a continuous region and the regions of different classes do not overlap.

邻近假设的主要意思就是在不同的类型的文档时没有重叠的,且同一类型文档的连续区域中也是没有重叠的。

在向量空间分类中主要分为两种,一种是Rocchio分类,另外一种是k邻近分类(K Nearest Neighbor)。

向量空间的表达其实以前就接触过,向量的表达方式主要是采用词条的权重来描述文档的,在分类方法中,我们常常会使用在平面上以点的形式来描述文档的向量,但是我们知道,真实的文档向量是一个以向量长度作为归一化的、只想球形表面的单位向量。 read more »

基于内容的推荐

Posted in 推荐系统 on August 20th, 2009 by laomi – Be the first to comment

基于内容的信息推荐方法的理论依据主要来自于信息检索信息过滤,所谓的基于内容的推荐方法就是根据用户过去的浏览记录来想用户推荐用户没有接触过的推荐项。下面主要是从两个方面来说基于内容的推荐方法:启发式的方法和基于模型的方法。

启发式的方法就是用户凭借经验来定义相关的计算公式,然后再根据公式的计算结果和实际的结果进行验证,然后再不断的是修改公式以达到最终目的。而对于模型的方法就是根据以往的数据作为数据集,然后根据这个数据集来学习出一个模型。一般的推荐系统中运用到的启发式的方法就是使用tf-idf的方法来计算,跟还有tf-idf的方法计算出这个文档中出现权重比较高的关键字作为描述用户特征,并使用这些关键字作为描述用户特征的向量;然后再根据被推荐项的中的权重高的关键字来作为推荐项的属性特征,然后再将这个两个向量最相近的(与用户特征的向量计算得分最高)的项推荐给用户。在计算用户特征向量和被推荐项的特征向量的相似性时,一般使用的是cosine方法,计算两个向量之间夹角的cosine值。 read more »

评分和词条权重计算

Posted in 信息检索 on July 27th, 2009 by laomi – 3 Comments

直观上去评价一个搜索引擎的好坏的一个标准就是搜索结果是否能够令用户满意,这个对于搜索引擎来说直接在于结果的排序。对于排序的不同标准来说,并提到了权重的计算和搜索结果评分。

对于布尔检索来说,例如做一个查询”徐佳佳是信息检索学习博客的作者”这样的信息,一般我们在Google或者是Baidu中我们会在搜索框输入”徐佳佳  信息检索”。对于布尔检索系统来说,这里它所作的操作就是“徐佳佳”和“信息检索”做了and操作,如果仅仅是这样的话,它是直接返回网页中有“徐佳佳”和“信息检索”结果而已,也许它返回的第一个结果是其他的blog中描写“徐佳佳的信息检索学习的博客写的很垃圾”这样的网站,但是作者想到找到的其实是我的博客。 read more »