<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
	xmlns:media="http://search.yahoo.com/mrss/"
>

<channel>
	<title>Just learning and thinking &#187; 权重</title>
	<atom:link href="http://www.rushcj.com/laomi/archives/tag/%e6%9d%83%e9%87%8d/feed" rel="self" type="application/rss+xml" />
	<link>http://www.rushcj.com/laomi</link>
	<description></description>
	<lastBuildDate>Tue, 01 Nov 2011 15:57:18 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
	<!-- podcast_generator="podPress/8.8" - maintenance_release="8.8.4" -->
		<copyright>2006-2007 </copyright>
		<managingEditor>laomi4569@gmail.com (Just learning and thinking)</managingEditor>
		<webMaster>laomi4569@gmail.com (Just learning and thinking)</webMaster>
		<category>posts</category>
		<itunes:keywords></itunes:keywords>
		<itunes:subtitle></itunes:subtitle>
		<itunes:summary>Just learning and thinking</itunes:summary>
		<itunes:author>Just learning and thinking</itunes:author>
		<itunes:category text="Society &amp; Culture"/>
		<itunes:owner>
			<itunes:name>Just learning and thinking</itunes:name>
			<itunes:email>laomi4569@gmail.com</itunes:email>
		</itunes:owner>
		<itunes:block>No</itunes:block>
		<itunes:explicit>no</itunes:explicit>
		<itunes:image href="http://www.rushcj.com/laomi/wp-content/plugins/podpress/images/powered_by_podpress_large.jpg" />
		<image>
			<url>http://www.rushcj.com/laomi/wp-content/plugins/podpress/images/powered_by_podpress.jpg</url>
			<title>Just learning and thinking</title>
			<link>http://www.rushcj.com/laomi</link>
			<width>144</width>
			<height>144</height>
		</image>
		<item>
		<title>向量空间分类</title>
		<link>http://www.rushcj.com/laomi/archives/178</link>
		<comments>http://www.rushcj.com/laomi/archives/178#comments</comments>
		<pubDate>Thu, 19 Nov 2009 13:39:55 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[classifier]]></category>
		<category><![CDATA[向量空间模型]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[文本分类]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=178</guid>
		<description><![CDATA[介绍部分： 普通的文本分类的方法例如朴素贝叶斯分类的方法，文档的表达方式只是简单的二进制向量(binary vector)的方法，普通点说法就是在文档表达时只是表达这个术语(term)在文档中有和无，如果文档中包含的话就是有记为1，文档中没有的话就记为无。举个例子来说明一下，例如有两个一句话文档： Document 1: China is beautiful. Document2: USA is a good country. 对于上面的两个文档来说，我可以建档的通过一个表格来表示上面的意思（在表格中的数据就是表示term的有和无，在这里我们讲去掉停词表中的is 和 a） 文档 China USA Beautiful Good Country Document1 1 0 1 0 0 Document2 0 1 0 1 1 所以对于document1来说他的向量表示为(1,0,1,0,0)，对于Document2来说其向量表示为(0,1,0,1,1)，但是在信息检索中的计算得分的部分，我们可以知道术语在文档中是有权重的，而在朴素贝叶斯分类中并没有添加权重部分。向量空间分类就是将要权重加到向量中，也就是有真实值的向量了（有权值了）。 向量空间分类(Vector space classification) 是基于一个假设条件进行了，这个假设是：邻近假设(Contiguity hypothesis) Contiguity hypothesis: Document in the same class from a continuous region and the regions [...]]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/178/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>基于内容的推荐</title>
		<link>http://www.rushcj.com/laomi/archives/83</link>
		<comments>http://www.rushcj.com/laomi/archives/83#comments</comments>
		<pubDate>Thu, 20 Aug 2009 09:29:32 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[推荐系统]]></category>
		<category><![CDATA[相似度计算]]></category>
		<category><![CDATA[tf-idf]]></category>
		<category><![CDATA[权重]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=83</guid>
		<description><![CDATA[基于内容的信息推荐方法的理论依据主要来自于信息检索和信息过滤，所谓的基于内容的推荐方法就是根据用户过去的浏览记录来想用户推荐用户没有接触过的推荐项。下面主要是从两个方面来说基于内容的推荐方法：启发式的方法和基于模型的方法。 启发式的方法就是用户凭借经验来定义相关的计算公式，然后再根据公式的计算结果和实际的结果进行验证，然后再不断的是修改公式以达到最终目的。而对于模型的方法就是根据以往的数据作为数据集，然后根据这个数据集来学习出一个模型。一般的推荐系统中运用到的启发式的方法就是使用tf-idf的方法来计算，跟还有tf-idf的方法计算出这个文档中出现权重比较高的关键字作为描述用户特征，并使用这些关键字作为描述用户特征的向量；然后再根据被推荐项的中的权重高的关键字来作为推荐项的属性特征，然后再将这个两个向量最相近的（与用户特征的向量计算得分最高）的项推荐给用户。在计算用户特征向量和被推荐项的特征向量的相似性时，一般使用的是cosine方法，计算两个向量之间夹角的cosine值。 对于基于模型的方法来推荐时，常常是使用纯贝叶斯分类的方法来实现，其主要思想就是首先对用户的过去访问记录进行分类，找出用户比较喜欢的分类，然后再将被推荐项进行分类，将与用户比较喜欢的分类的推荐项推荐给用户。对于网页Pj个网页中的关键字[pmath size=10]&#60;m&#62;k_{1,j} cdots k_{n,j}&#60;/m&#62;[/pmath]计算这个网页属于列别Ci，根据纯贝叶斯分类计算则有： [pmath size=10]&#60;m&#62;P(C_{i} delim{&#124;} k_{1,j}  cdots  &#38;k_{n,j})~~~~delim{[}{1}{]}&#60;/m&#62;[/pmath]再假设这些关键字是独立的且这些关键字在文档或者是句子中的位置也是独立的，从而可以将公式[1]化简成[pmath size=10]&#60;m&#62;P(C_{i})prod{x}{}{P(k_{x, j}delim{&#124;}C_{i}})~~~~delim{[}{2}{]}&#60;/m&#62;[/pmath]，然后再根据用户过去的访问记录计算出[pmath]&#60;m&#62;P(C_{i})&#60;/m&#62;[/pmath]和[pmath]&#60;m&#62;P(k_{x,j})delim{&#124;} C_{i})&#60;/m&#62;[/pmath]值。 基于内容的推荐能很好的根据用户的过去的访问记录来给用户做推荐，但是基于内容的推荐还是存在局限性的： 内容分析的限制。这些限制主要来来自于信息检索技术，例如如何从数据中抽取去特征数据，因为特征抽取在信息检索中就是一个问题。 过于专门化。仅仅是推荐与用户以前喜欢的推荐项，因为基于内容的推荐方法就是根据用户过去的访问记录来给用户做推荐。 新用户问题。这个也是基于内容的推荐性质决定的，一个用户一上来是没有任何记录的，所以很难推荐项目给用户。 基于内容的推荐方法用到知识很多都是信息检索用的方法，例如tf-idf和文本分类技术等，基于内容的推荐方法其实质就是根据用户的访问记录来得出用户的特征属性，然后再根据用户的特征属性与推荐项的特征属性来计算效用函数的值，并将结果推荐给用户。]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/83/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>评分和词条权重计算</title>
		<link>http://www.rushcj.com/laomi/archives/54</link>
		<comments>http://www.rushcj.com/laomi/archives/54#comments</comments>
		<pubDate>Mon, 27 Jul 2009 04:35:35 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[信息检索]]></category>
		<category><![CDATA[rank]]></category>
		<category><![CDATA[score]]></category>
		<category><![CDATA[tf-idf]]></category>
		<category><![CDATA[权重]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=54</guid>
		<description><![CDATA[直观上去评价一个搜索引擎的好坏的一个标准就是搜索结果是否能够令用户满意，这个对于搜索引擎来说直接在于结果的排序。对于排序的不同标准来说，并提到了权重的计算和搜索结果评分。 对于布尔检索来说，例如做一个查询&#8221;徐佳佳是信息检索学习博客的作者&#8221;这样的信息，一般我们在Google或者是Baidu中我们会在搜索框输入&#8221;徐佳佳  信息检索&#8221;。对于布尔检索系统来说，这里它所作的操作就是“徐佳佳”和“信息检索”做了and操作，如果仅仅是这样的话，它是直接返回网页中有“徐佳佳”和“信息检索”结果而已，也许它返回的第一个结果是其他的blog中描写“徐佳佳的信息检索学习的博客写的很垃圾”这样的网站，但是作者想到找到的其实是我的博客。所以如何对搜索结果进行排序就能给用户最近的结果。如果我们对一个网页进行简单的分区，一个网页中的title，另一个是网页中的body部分，如果我们进行一个简单的约定：一个网页中title部分的数据比在网页中body中的数据更能描述网站信息。根据这一的一个约定在实际的搜索结果中给body和titile分不同的权重wj，对于我们的例子来说，title的权重要比body的权重要高。在计算最终得分的时候还需要考虑搜素的关键字是出现在网页中title部分还是在body部分，这里我们只考虑是在这个标签中还是不在这些标签中，在这里用0和1分别表示si的值（si表示关键字与网页哪个区域相关。si是0表示不在，1表示在）。根据这一的标准我们可以得出评分的计算方法，就是将关键自己出现在网页中不同区域中(是出现在title总还是出现在body中)的权重wj与区域相关si积的和就是所得的评分。 上面的方法是通过相关的人员人工设置网页各个部分的不同权重，这种方式受人的干扰因素较多。其实还有其他的方法来计算权重，那就是机器学习的方法，其主要思想就是根据训练数据得出权重的计算方法。具体计算方法会在机器学习一节会提到。 一般对于文档来说采用的权重计算方法是Tf-idf(term frequency &#8211; inverting document frequency)，词条频度(term frequency)表示的是这个词条在文档中数量。文档频度(doument frequency)只的是在文档集中包含这个词条文档的数量，从直觉上我们知道，在一个文档中如果一个词条不断的出现的话，那么这个文档很有可能是关于这个话题的，那么他肯定是比较重要的，相对来说权重也是比较高的。但是我们知道，在一篇文章中有很多的词语&#8221;的，地，得&#8221;等词语在任何一篇文中是都会出现而且出现的频率是很高的，所以在自然语言处理的时候提到过“stop words”停词表，这些词语在很多情况下不做考虑。我们可以在做词条权重计算的时候不用考虑停词的情况，但是出了停词表之外，有些词语在一些文档中出现的概率也是很高的，所以为了避免这样的情况，所以采用了一种的反文档频度(inverting document frequency)的办法。所以在计算词条权重是的办法是：tf *log(N/df)，其中N是文档集中所有的文档的数量。tf-idf的直观上理解可以分为三种情况（一下说的情况，权重的高低是相对的）： 权重最高情况。一个词条在文档中词条频度很高，但是仅仅在一个文档或者非常少中出现，这样情况的话，这个词条的权重被认为是最高的。 权重比较高情况。一个词条在文档中词条频度比较高，在其他文档中出现的情况不是很高，或者是词条频度不是很高，但是出现在其他的文档中情况比较少。 权重最低情况。词条在文档中的词条频度很低，但是又经常出现在其他的文档中。 词条权重的计算，直接影响到最终的结果显示，所以一个合理的权重计算对搜索引擎和推荐系统来说是非常重要的。]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/54/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
	</channel>
</rss>
<!-- WP Super Cache is installed but broken. The path to wp-cache-phase1.php in wp-content/advanced-cache.php must be fixed! -->
