Posts Tagged ‘tf-idf’

基于内容的推荐

Posted in 推荐系统 on August 20th, 2009 by laomi – Be the first to comment

基于内容的信息推荐方法的理论依据主要来自于信息检索信息过滤,所谓的基于内容的推荐方法就是根据用户过去的浏览记录来想用户推荐用户没有接触过的推荐项。下面主要是从两个方面来说基于内容的推荐方法:启发式的方法和基于模型的方法。

启发式的方法就是用户凭借经验来定义相关的计算公式,然后再根据公式的计算结果和实际的结果进行验证,然后再不断的是修改公式以达到最终目的。而对于模型的方法就是根据以往的数据作为数据集,然后根据这个数据集来学习出一个模型。一般的推荐系统中运用到的启发式的方法就是使用tf-idf的方法来计算,跟还有tf-idf的方法计算出这个文档中出现权重比较高的关键字作为描述用户特征,并使用这些关键字作为描述用户特征的向量;然后再根据被推荐项的中的权重高的关键字来作为推荐项的属性特征,然后再将这个两个向量最相近的(与用户特征的向量计算得分最高)的项推荐给用户。在计算用户特征向量和被推荐项的特征向量的相似性时,一般使用的是cosine方法,计算两个向量之间夹角的cosine值。 read more »

评分和词条权重计算

Posted in 信息检索 on July 27th, 2009 by laomi – 3 Comments

直观上去评价一个搜索引擎的好坏的一个标准就是搜索结果是否能够令用户满意,这个对于搜索引擎来说直接在于结果的排序。对于排序的不同标准来说,并提到了权重的计算和搜索结果评分。

对于布尔检索来说,例如做一个查询”徐佳佳是信息检索学习博客的作者”这样的信息,一般我们在Google或者是Baidu中我们会在搜索框输入”徐佳佳  信息检索”。对于布尔检索系统来说,这里它所作的操作就是“徐佳佳”和“信息检索”做了and操作,如果仅仅是这样的话,它是直接返回网页中有“徐佳佳”和“信息检索”结果而已,也许它返回的第一个结果是其他的blog中描写“徐佳佳的信息检索学习的博客写的很垃圾”这样的网站,但是作者想到找到的其实是我的博客。 read more »