向量空间模型
Posted: July 31st, 2009 | Author: laomi | Filed under: 信息检索 | Tags: 向量空间模型, 相似度计算, 推荐系统 | No Comments »我们已经知道了词条权重怎么去计算,词条权重的计算也是为后面信息检索或者是做推荐系统的推荐来做服务,将评分最高的数据显示在最前面或者是推荐给系统的使用者(对推荐系统来说的)。而向量空间模型(vector space model)就是其中的一种很普遍的计算scoring的一中方法。
对于信息检索的系统来说,向量空间模型主要是将查询的词条与索引的数据进行计算,一般直接的表现方式是计算向量之间的余弦值。我们知道只有当两个向量的余弦值为1的时候,那么他们之间的夹角是为0的,这种情况下我们就认为这与查询的结果最近似。在搜索引擎中,通过这样的计算查询条件的此条与被被查询的文档之间的词条的得分来对搜索结果进行排序。
对于推荐系统来说,推荐系统的一个很主要的特征就是根据用户的历史记录或者是描述用户的特征数据来向用户推荐信息。比如在一个购书网站例如china-pub,系统可以根据你在网站中的访问记录来给你推荐你可能感兴趣的书籍。对于一个社交网来说,可能依据是你的好友信息来推荐信息给你,对于这样的推荐形式大概可以分为:通过分析你的个人的浏览记录和个人的喜好来推荐信息给用户,另外一种方式是通过好友的信息来做推荐。我们可以举一个简单例子,例如在像校内网这样的社交网络来说,他里面有一个栏就是“你可能认识的人”,其实这一栏你就可以把它认为是简单的推荐系统,比如它可能根据你的好友的好友列表中出现次数比较多的人,从而可以认为这个人很有可能也是你认识的人,再简单一点的话,可以根据学校和工作单位来做简单的判断来推荐你可能认识的人。在社交网络中,在做推荐之前首先就是确定评价因素(也就是你推荐的标准),比如豆瓣这样的社交网络中,它可能直接通过的你浏览记录来做分析,最简单的分析形式就是通过向量空间模型来计算与您的喜好最相近的信息,然后推荐给您。
向量空间模型在相似度的计算方面确实有很广泛的应用,这部分今后会更详细的提到。
Leave a Reply