<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
	xmlns:media="http://search.yahoo.com/mrss/"
>

<channel>
	<title>Just learning and thinking &#187; 向量空间模型</title>
	<atom:link href="http://www.rushcj.com/laomi/archives/tag/%e5%90%91%e9%87%8f%e7%a9%ba%e9%97%b4%e6%a8%a1%e5%9e%8b/feed" rel="self" type="application/rss+xml" />
	<link>http://www.rushcj.com/laomi</link>
	<description></description>
	<lastBuildDate>Tue, 01 Nov 2011 15:57:18 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
	<!-- podcast_generator="podPress/8.8" - maintenance_release="8.8.4" -->
		<copyright>2006-2007 </copyright>
		<managingEditor>laomi4569@gmail.com (Just learning and thinking)</managingEditor>
		<webMaster>laomi4569@gmail.com (Just learning and thinking)</webMaster>
		<category>posts</category>
		<itunes:keywords></itunes:keywords>
		<itunes:subtitle></itunes:subtitle>
		<itunes:summary>Just learning and thinking</itunes:summary>
		<itunes:author>Just learning and thinking</itunes:author>
		<itunes:category text="Society &amp; Culture"/>
		<itunes:owner>
			<itunes:name>Just learning and thinking</itunes:name>
			<itunes:email>laomi4569@gmail.com</itunes:email>
		</itunes:owner>
		<itunes:block>No</itunes:block>
		<itunes:explicit>no</itunes:explicit>
		<itunes:image href="http://www.rushcj.com/laomi/wp-content/plugins/podpress/images/powered_by_podpress_large.jpg" />
		<image>
			<url>http://www.rushcj.com/laomi/wp-content/plugins/podpress/images/powered_by_podpress.jpg</url>
			<title>Just learning and thinking</title>
			<link>http://www.rushcj.com/laomi</link>
			<width>144</width>
			<height>144</height>
		</image>
		<item>
		<title>向量空间分类</title>
		<link>http://www.rushcj.com/laomi/archives/178</link>
		<comments>http://www.rushcj.com/laomi/archives/178#comments</comments>
		<pubDate>Thu, 19 Nov 2009 13:39:55 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[classifier]]></category>
		<category><![CDATA[向量空间模型]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[文本分类]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=178</guid>
		<description><![CDATA[介绍部分： 普通的文本分类的方法例如朴素贝叶斯分类的方法，文档的表达方式只是简单的二进制向量(binary vector)的方法，普通点说法就是在文档表达时只是表达这个术语(term)在文档中有和无，如果文档中包含的话就是有记为1，文档中没有的话就记为无。举个例子来说明一下，例如有两个一句话文档： Document 1: China is beautiful. Document2: USA is a good country. 对于上面的两个文档来说，我可以建档的通过一个表格来表示上面的意思（在表格中的数据就是表示term的有和无，在这里我们讲去掉停词表中的is 和 a） 文档 China USA Beautiful Good Country Document1 1 0 1 0 0 Document2 0 1 0 1 1 所以对于document1来说他的向量表示为(1,0,1,0,0)，对于Document2来说其向量表示为(0,1,0,1,1)，但是在信息检索中的计算得分的部分，我们可以知道术语在文档中是有权重的，而在朴素贝叶斯分类中并没有添加权重部分。向量空间分类就是将要权重加到向量中，也就是有真实值的向量了（有权值了）。 向量空间分类(Vector space classification) 是基于一个假设条件进行了，这个假设是：邻近假设(Contiguity hypothesis) Contiguity hypothesis: Document in the same class from a continuous region and the regions [...]]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/178/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>向量空间模型</title>
		<link>http://www.rushcj.com/laomi/archives/64</link>
		<comments>http://www.rushcj.com/laomi/archives/64#comments</comments>
		<pubDate>Fri, 31 Jul 2009 06:11:31 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[信息检索]]></category>
		<category><![CDATA[向量空间模型]]></category>
		<category><![CDATA[相似度计算]]></category>
		<category><![CDATA[推荐系统]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=64</guid>
		<description><![CDATA[我们已经知道了词条权重怎么去计算，词条权重的计算也是为后面信息检索或者是做推荐系统的推荐来做服务，将评分最高的数据显示在最前面或者是推荐给系统的使用者(对推荐系统来说的)。而向量空间模型（vector space model）就是其中的一种很普遍的计算scoring的一中方法。 对于信息检索的系统来说，向量空间模型主要是将查询的词条与索引的数据进行计算，一般直接的表现方式是计算向量之间的余弦值。我们知道只有当两个向量的余弦值为1的时候，那么他们之间的夹角是为0的，这种情况下我们就认为这与查询的结果最近似。在搜索引擎中，通过这样的计算查询条件的此条与被被查询的文档之间的词条的得分来对搜索结果进行排序。 对于推荐系统来说，推荐系统的一个很主要的特征就是根据用户的历史记录或者是描述用户的特征数据来向用户推荐信息。比如在一个购书网站例如china-pub，系统可以根据你在网站中的访问记录来给你推荐你可能感兴趣的书籍。对于一个社交网来说，可能依据是你的好友信息来推荐信息给你，对于这样的推荐形式大概可以分为:通过分析你的个人的浏览记录和个人的喜好来推荐信息给用户，另外一种方式是通过好友的信息来做推荐。我们可以举一个简单例子，例如在像校内网这样的社交网络来说，他里面有一个栏就是“你可能认识的人”，其实这一栏你就可以把它认为是简单的推荐系统，比如它可能根据你的好友的好友列表中出现次数比较多的人，从而可以认为这个人很有可能也是你认识的人，再简单一点的话，可以根据学校和工作单位来做简单的判断来推荐你可能认识的人。在社交网络中，在做推荐之前首先就是确定评价因素（也就是你推荐的标准），比如豆瓣这样的社交网络中，它可能直接通过的你浏览记录来做分析，最简单的分析形式就是通过向量空间模型来计算与您的喜好最相近的信息，然后推荐给您。 向量空间模型在相似度的计算方面确实有很广泛的应用，这部分今后会更详细的提到。]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/64/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
<!-- WP Super Cache is installed but broken. The path to wp-cache-phase1.php in wp-content/advanced-cache.php must be fixed! -->
