<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
	xmlns:media="http://search.yahoo.com/mrss/"
>

<channel>
	<title>Just learning and thinking &#187; 相似度计算</title>
	<atom:link href="http://www.rushcj.com/laomi/archives/tag/%e7%9b%b8%e4%bc%bc%e5%ba%a6%e8%ae%a1%e7%ae%97/feed" rel="self" type="application/rss+xml" />
	<link>http://www.rushcj.com/laomi</link>
	<description></description>
	<lastBuildDate>Tue, 01 Nov 2011 15:57:18 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
	<!-- podcast_generator="podPress/8.8" - maintenance_release="8.8.4" -->
		<copyright>2006-2007 </copyright>
		<managingEditor>laomi4569@gmail.com (Just learning and thinking)</managingEditor>
		<webMaster>laomi4569@gmail.com (Just learning and thinking)</webMaster>
		<category>posts</category>
		<itunes:keywords></itunes:keywords>
		<itunes:subtitle></itunes:subtitle>
		<itunes:summary>Just learning and thinking</itunes:summary>
		<itunes:author>Just learning and thinking</itunes:author>
		<itunes:category text="Society &amp; Culture"/>
		<itunes:owner>
			<itunes:name>Just learning and thinking</itunes:name>
			<itunes:email>laomi4569@gmail.com</itunes:email>
		</itunes:owner>
		<itunes:block>No</itunes:block>
		<itunes:explicit>no</itunes:explicit>
		<itunes:image href="http://www.rushcj.com/laomi/wp-content/plugins/podpress/images/powered_by_podpress_large.jpg" />
		<image>
			<url>http://www.rushcj.com/laomi/wp-content/plugins/podpress/images/powered_by_podpress.jpg</url>
			<title>Just learning and thinking</title>
			<link>http://www.rushcj.com/laomi</link>
			<width>144</width>
			<height>144</height>
		</image>
		<item>
		<title>协作推荐</title>
		<link>http://www.rushcj.com/laomi/archives/114</link>
		<comments>http://www.rushcj.com/laomi/archives/114#comments</comments>
		<pubDate>Fri, 21 Aug 2009 07:57:49 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[推荐系统]]></category>
		<category><![CDATA[协作推荐]]></category>
		<category><![CDATA[相似度计算]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=114</guid>
		<description><![CDATA[前面的文章介绍了基于内容的推荐方法，它使用的是用户的过去的浏览记录来给用户做推荐，而协作推荐它是使用与用户喜好相似的用户们的喜好推荐给此用户，所以协作推荐系统它所看到的推荐项实质上是与他有相似喜好用户的浏览记录。例如一个电影评价网站中，系统会根据你在系统中的浏览记录，在系统中找出与你喜好相似的用户群，然后再将他们的喜好推荐给你。 协作推荐的效用函数的表达：项目s对于用户c的效用函数值主要取决于与用户有相似用户效用函数的值。例如：在电影推荐系统中，你所得到推荐项是那些和你有相同喜好的用户们的最喜欢的电影。根据协作过滤的算法，一般将协作过滤的方法分为两类：启发式的协作过滤和基于模型的协作过滤。 启发式协作过滤主要是根据所有用户以前评价过的项目记录来进行评价预测（就是计算效用函数的值，或者是说来运用说有的用户的评价项目来进行推荐），根据前面的知道我们知道，启发式的方法主要是凭借经验来计算效用函数。启发式的协作过滤对于用户c来说他对项目s的评价值(效用函数的值)就是其他的用户对项目s的评价值的聚合，运用公式的表达形式如下： [pmath size=14]{r_{c,s} = aggrr_{c,s prime }}under{c prime notin hat{C}} ~~~delim{[}{1}{]}[/pmath] 在表达式[1]中[pmath size=8];hat{C}[/pmath]表示的是对项目s已经评价过的所有与用户c相似的用户的集合。一些关于集合函数如下： [pmath size=10]r_{c,s}= 1/N sum{c prime notin hat{C}}{}{r_{c,s prime }} ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(a)[/pmath] [pmath size=10] r_{c,s}= k sum{c prime notin hat{C}}{}{sim(c,c prime) r_{c,s prime }}~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(b) [/pmath] [pmath size=10]r_{c,s}= overline{r_{c}} + k sum{c prime notin hat{C}}{}{sim(c,c prime) * (r_{c,s prime} &#8211; overline{r_{c}})}~~~~~~~~~~~~~~(c)[/pmath] 在公式(b)和(c)中k充当的是一个归一化参数，k的取值常常是：[pmath size=8] [...]]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/114/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>基于内容的推荐</title>
		<link>http://www.rushcj.com/laomi/archives/83</link>
		<comments>http://www.rushcj.com/laomi/archives/83#comments</comments>
		<pubDate>Thu, 20 Aug 2009 09:29:32 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[推荐系统]]></category>
		<category><![CDATA[相似度计算]]></category>
		<category><![CDATA[tf-idf]]></category>
		<category><![CDATA[权重]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=83</guid>
		<description><![CDATA[基于内容的信息推荐方法的理论依据主要来自于信息检索和信息过滤，所谓的基于内容的推荐方法就是根据用户过去的浏览记录来想用户推荐用户没有接触过的推荐项。下面主要是从两个方面来说基于内容的推荐方法：启发式的方法和基于模型的方法。 启发式的方法就是用户凭借经验来定义相关的计算公式，然后再根据公式的计算结果和实际的结果进行验证，然后再不断的是修改公式以达到最终目的。而对于模型的方法就是根据以往的数据作为数据集，然后根据这个数据集来学习出一个模型。一般的推荐系统中运用到的启发式的方法就是使用tf-idf的方法来计算，跟还有tf-idf的方法计算出这个文档中出现权重比较高的关键字作为描述用户特征，并使用这些关键字作为描述用户特征的向量；然后再根据被推荐项的中的权重高的关键字来作为推荐项的属性特征，然后再将这个两个向量最相近的（与用户特征的向量计算得分最高）的项推荐给用户。在计算用户特征向量和被推荐项的特征向量的相似性时，一般使用的是cosine方法，计算两个向量之间夹角的cosine值。 对于基于模型的方法来推荐时，常常是使用纯贝叶斯分类的方法来实现，其主要思想就是首先对用户的过去访问记录进行分类，找出用户比较喜欢的分类，然后再将被推荐项进行分类，将与用户比较喜欢的分类的推荐项推荐给用户。对于网页Pj个网页中的关键字[pmath size=10]&#60;m&#62;k_{1,j} cdots k_{n,j}&#60;/m&#62;[/pmath]计算这个网页属于列别Ci，根据纯贝叶斯分类计算则有： [pmath size=10]&#60;m&#62;P(C_{i} delim{&#124;} k_{1,j}  cdots  &#38;k_{n,j})~~~~delim{[}{1}{]}&#60;/m&#62;[/pmath]再假设这些关键字是独立的且这些关键字在文档或者是句子中的位置也是独立的，从而可以将公式[1]化简成[pmath size=10]&#60;m&#62;P(C_{i})prod{x}{}{P(k_{x, j}delim{&#124;}C_{i}})~~~~delim{[}{2}{]}&#60;/m&#62;[/pmath]，然后再根据用户过去的访问记录计算出[pmath]&#60;m&#62;P(C_{i})&#60;/m&#62;[/pmath]和[pmath]&#60;m&#62;P(k_{x,j})delim{&#124;} C_{i})&#60;/m&#62;[/pmath]值。 基于内容的推荐能很好的根据用户的过去的访问记录来给用户做推荐，但是基于内容的推荐还是存在局限性的： 内容分析的限制。这些限制主要来来自于信息检索技术，例如如何从数据中抽取去特征数据，因为特征抽取在信息检索中就是一个问题。 过于专门化。仅仅是推荐与用户以前喜欢的推荐项，因为基于内容的推荐方法就是根据用户过去的访问记录来给用户做推荐。 新用户问题。这个也是基于内容的推荐性质决定的，一个用户一上来是没有任何记录的，所以很难推荐项目给用户。 基于内容的推荐方法用到知识很多都是信息检索用的方法，例如tf-idf和文本分类技术等，基于内容的推荐方法其实质就是根据用户的访问记录来得出用户的特征属性，然后再根据用户的特征属性与推荐项的特征属性来计算效用函数的值，并将结果推荐给用户。]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/83/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>向量空间模型</title>
		<link>http://www.rushcj.com/laomi/archives/64</link>
		<comments>http://www.rushcj.com/laomi/archives/64#comments</comments>
		<pubDate>Fri, 31 Jul 2009 06:11:31 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[信息检索]]></category>
		<category><![CDATA[向量空间模型]]></category>
		<category><![CDATA[相似度计算]]></category>
		<category><![CDATA[推荐系统]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=64</guid>
		<description><![CDATA[我们已经知道了词条权重怎么去计算，词条权重的计算也是为后面信息检索或者是做推荐系统的推荐来做服务，将评分最高的数据显示在最前面或者是推荐给系统的使用者(对推荐系统来说的)。而向量空间模型（vector space model）就是其中的一种很普遍的计算scoring的一中方法。 对于信息检索的系统来说，向量空间模型主要是将查询的词条与索引的数据进行计算，一般直接的表现方式是计算向量之间的余弦值。我们知道只有当两个向量的余弦值为1的时候，那么他们之间的夹角是为0的，这种情况下我们就认为这与查询的结果最近似。在搜索引擎中，通过这样的计算查询条件的此条与被被查询的文档之间的词条的得分来对搜索结果进行排序。 对于推荐系统来说，推荐系统的一个很主要的特征就是根据用户的历史记录或者是描述用户的特征数据来向用户推荐信息。比如在一个购书网站例如china-pub，系统可以根据你在网站中的访问记录来给你推荐你可能感兴趣的书籍。对于一个社交网来说，可能依据是你的好友信息来推荐信息给你，对于这样的推荐形式大概可以分为:通过分析你的个人的浏览记录和个人的喜好来推荐信息给用户，另外一种方式是通过好友的信息来做推荐。我们可以举一个简单例子，例如在像校内网这样的社交网络来说，他里面有一个栏就是“你可能认识的人”，其实这一栏你就可以把它认为是简单的推荐系统，比如它可能根据你的好友的好友列表中出现次数比较多的人，从而可以认为这个人很有可能也是你认识的人，再简单一点的话，可以根据学校和工作单位来做简单的判断来推荐你可能认识的人。在社交网络中，在做推荐之前首先就是确定评价因素（也就是你推荐的标准），比如豆瓣这样的社交网络中，它可能直接通过的你浏览记录来做分析，最简单的分析形式就是通过向量空间模型来计算与您的喜好最相近的信息，然后推荐给您。 向量空间模型在相似度的计算方面确实有很广泛的应用，这部分今后会更详细的提到。]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/64/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
<!-- WP Super Cache is installed but broken. The path to wp-cache-phase1.php in wp-content/advanced-cache.php must be fixed! -->
