<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
	xmlns:media="http://search.yahoo.com/mrss/"
>

<channel>
	<title>Just learning and thinking &#187; 信息检索</title>
	<atom:link href="http://www.rushcj.com/laomi/archives/category/%e4%bf%a1%e6%81%af%e6%a3%80%e7%b4%a2/feed" rel="self" type="application/rss+xml" />
	<link>http://www.rushcj.com/laomi</link>
	<description></description>
	<lastBuildDate>Tue, 01 Nov 2011 15:57:18 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
	<!-- podcast_generator="podPress/8.8" - maintenance_release="8.8.4" -->
		<copyright>Copyright &#xA9; 2012 Just learning and thinking </copyright>
		<managingEditor>laomi4569@gmail.com ()</managingEditor>
		<webMaster>laomi4569@gmail.com ()</webMaster>
		<category>posts</category>
		<itunes:keywords></itunes:keywords>
		<itunes:subtitle></itunes:subtitle>
		<itunes:summary>Just learning and thinking</itunes:summary>
		<itunes:author></itunes:author>
		<itunes:category text="Society &amp; Culture"/>
		<itunes:owner>
			<itunes:name></itunes:name>
			<itunes:email>laomi4569@gmail.com</itunes:email>
		</itunes:owner>
		<itunes:block>No</itunes:block>
		<itunes:explicit>no</itunes:explicit>
		<itunes:image href="http://www.rushcj.com/laomi/wp-content/plugins/podpress/images/powered_by_podpress_large.jpg" />
		<image>
			<url>http://www.rushcj.com/laomi/wp-content/plugins/podpress/images/powered_by_podpress.jpg</url>
			<title>Just learning and thinking</title>
			<link>http://www.rushcj.com/laomi</link>
			<width>144</width>
			<height>144</height>
		</image>
		<item>
		<title>向量空间分类</title>
		<link>http://www.rushcj.com/laomi/archives/178</link>
		<comments>http://www.rushcj.com/laomi/archives/178#comments</comments>
		<pubDate>Thu, 19 Nov 2009 13:39:55 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[classifier]]></category>
		<category><![CDATA[向量空间模型]]></category>
		<category><![CDATA[权重]]></category>
		<category><![CDATA[文本分类]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=178</guid>
		<description><![CDATA[介绍部分： 普通的文本分类的方法例如朴素贝叶斯分类的方法，文档的表达方式只是简单的二进制向量(binary vector)的方法，普通点说法就是在文档表达时只是表达这个术语(term)在文档中有和无，如果文档中包含的话就是有记为1，文档中没有的话就记为无。举个例子来说明一下，例如有两个一句话文档： Document 1: China is beautiful. Document2: USA is a good country. 对于上面的两个文档来说，我可以建档的通过一个表格来表示上面的意思（在表格中的数据就是表示term的有和无，在这里我们讲去掉停词表中的is 和 a） 文档 China USA Beautiful Good Country Document1 1 0 1 0 0 Document2 0 1 0 1 1 所以对于document1来说他的向量表示为(1,0,1,0,0)，对于Document2来说其向量表示为(0,1,0,1,1)，但是在信息检索中的计算得分的部分，我们可以知道术语在文档中是有权重的，而在朴素贝叶斯分类中并没有添加权重部分。向量空间分类就是将要权重加到向量中，也就是有真实值的向量了（有权值了）。 向量空间分类(Vector space classification) 是基于一个假设条件进行了，这个假设是：邻近假设(Contiguity hypothesis) Contiguity hypothesis: Document in the same class from a continuous region and the regions [...]]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/178/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>向量空间模型</title>
		<link>http://www.rushcj.com/laomi/archives/64</link>
		<comments>http://www.rushcj.com/laomi/archives/64#comments</comments>
		<pubDate>Fri, 31 Jul 2009 06:11:31 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[信息检索]]></category>
		<category><![CDATA[向量空间模型]]></category>
		<category><![CDATA[相似度计算]]></category>
		<category><![CDATA[推荐系统]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=64</guid>
		<description><![CDATA[我们已经知道了词条权重怎么去计算，词条权重的计算也是为后面信息检索或者是做推荐系统的推荐来做服务，将评分最高的数据显示在最前面或者是推荐给系统的使用者(对推荐系统来说的)。而向量空间模型（vector space model）就是其中的一种很普遍的计算scoring的一中方法。 对于信息检索的系统来说，向量空间模型主要是将查询的词条与索引的数据进行计算，一般直接的表现方式是计算向量之间的余弦值。我们知道只有当两个向量的余弦值为1的时候，那么他们之间的夹角是为0的，这种情况下我们就认为这与查询的结果最近似。在搜索引擎中，通过这样的计算查询条件的此条与被被查询的文档之间的词条的得分来对搜索结果进行排序。 对于推荐系统来说，推荐系统的一个很主要的特征就是根据用户的历史记录或者是描述用户的特征数据来向用户推荐信息。比如在一个购书网站例如china-pub，系统可以根据你在网站中的访问记录来给你推荐你可能感兴趣的书籍。对于一个社交网来说，可能依据是你的好友信息来推荐信息给你，对于这样的推荐形式大概可以分为:通过分析你的个人的浏览记录和个人的喜好来推荐信息给用户，另外一种方式是通过好友的信息来做推荐。我们可以举一个简单例子，例如在像校内网这样的社交网络来说，他里面有一个栏就是“你可能认识的人”，其实这一栏你就可以把它认为是简单的推荐系统，比如它可能根据你的好友的好友列表中出现次数比较多的人，从而可以认为这个人很有可能也是你认识的人，再简单一点的话，可以根据学校和工作单位来做简单的判断来推荐你可能认识的人。在社交网络中，在做推荐之前首先就是确定评价因素（也就是你推荐的标准），比如豆瓣这样的社交网络中，它可能直接通过的你浏览记录来做分析，最简单的分析形式就是通过向量空间模型来计算与您的喜好最相近的信息，然后推荐给您。 向量空间模型在相似度的计算方面确实有很广泛的应用，这部分今后会更详细的提到。]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/64/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>评分和词条权重计算</title>
		<link>http://www.rushcj.com/laomi/archives/54</link>
		<comments>http://www.rushcj.com/laomi/archives/54#comments</comments>
		<pubDate>Mon, 27 Jul 2009 04:35:35 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[信息检索]]></category>
		<category><![CDATA[rank]]></category>
		<category><![CDATA[score]]></category>
		<category><![CDATA[tf-idf]]></category>
		<category><![CDATA[权重]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=54</guid>
		<description><![CDATA[直观上去评价一个搜索引擎的好坏的一个标准就是搜索结果是否能够令用户满意，这个对于搜索引擎来说直接在于结果的排序。对于排序的不同标准来说，并提到了权重的计算和搜索结果评分。 对于布尔检索来说，例如做一个查询&#8221;徐佳佳是信息检索学习博客的作者&#8221;这样的信息，一般我们在Google或者是Baidu中我们会在搜索框输入&#8221;徐佳佳  信息检索&#8221;。对于布尔检索系统来说，这里它所作的操作就是“徐佳佳”和“信息检索”做了and操作，如果仅仅是这样的话，它是直接返回网页中有“徐佳佳”和“信息检索”结果而已，也许它返回的第一个结果是其他的blog中描写“徐佳佳的信息检索学习的博客写的很垃圾”这样的网站，但是作者想到找到的其实是我的博客。所以如何对搜索结果进行排序就能给用户最近的结果。如果我们对一个网页进行简单的分区，一个网页中的title，另一个是网页中的body部分，如果我们进行一个简单的约定：一个网页中title部分的数据比在网页中body中的数据更能描述网站信息。根据这一的一个约定在实际的搜索结果中给body和titile分不同的权重wj，对于我们的例子来说，title的权重要比body的权重要高。在计算最终得分的时候还需要考虑搜素的关键字是出现在网页中title部分还是在body部分，这里我们只考虑是在这个标签中还是不在这些标签中，在这里用0和1分别表示si的值（si表示关键字与网页哪个区域相关。si是0表示不在，1表示在）。根据这一的标准我们可以得出评分的计算方法，就是将关键自己出现在网页中不同区域中(是出现在title总还是出现在body中)的权重wj与区域相关si积的和就是所得的评分。 上面的方法是通过相关的人员人工设置网页各个部分的不同权重，这种方式受人的干扰因素较多。其实还有其他的方法来计算权重，那就是机器学习的方法，其主要思想就是根据训练数据得出权重的计算方法。具体计算方法会在机器学习一节会提到。 一般对于文档来说采用的权重计算方法是Tf-idf(term frequency &#8211; inverting document frequency)，词条频度(term frequency)表示的是这个词条在文档中数量。文档频度(doument frequency)只的是在文档集中包含这个词条文档的数量，从直觉上我们知道，在一个文档中如果一个词条不断的出现的话，那么这个文档很有可能是关于这个话题的，那么他肯定是比较重要的，相对来说权重也是比较高的。但是我们知道，在一篇文章中有很多的词语&#8221;的，地，得&#8221;等词语在任何一篇文中是都会出现而且出现的频率是很高的，所以在自然语言处理的时候提到过“stop words”停词表，这些词语在很多情况下不做考虑。我们可以在做词条权重计算的时候不用考虑停词的情况，但是出了停词表之外，有些词语在一些文档中出现的概率也是很高的，所以为了避免这样的情况，所以采用了一种的反文档频度(inverting document frequency)的办法。所以在计算词条权重是的办法是：tf *log(N/df)，其中N是文档集中所有的文档的数量。tf-idf的直观上理解可以分为三种情况（一下说的情况，权重的高低是相对的）： 权重最高情况。一个词条在文档中词条频度很高，但是仅仅在一个文档或者非常少中出现，这样情况的话，这个词条的权重被认为是最高的。 权重比较高情况。一个词条在文档中词条频度比较高，在其他文档中出现的情况不是很高，或者是词条频度不是很高，但是出现在其他的文档中情况比较少。 权重最低情况。词条在文档中的词条频度很低，但是又经常出现在其他的文档中。 词条权重的计算，直接影响到最终的结果显示，所以一个合理的权重计算对搜索引擎和推荐系统来说是非常重要的。]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/54/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>超链接分析&#8211;PageRank</title>
		<link>http://www.rushcj.com/laomi/archives/9</link>
		<comments>http://www.rushcj.com/laomi/archives/9#comments</comments>
		<pubDate>Tue, 30 Jun 2009 02:41:59 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[信息检索]]></category>
		<category><![CDATA[超链接分析]]></category>
		<category><![CDATA[pagerank]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=9</guid>
		<description><![CDATA[我们知道，在评价一篇论文它是否是这个领域当中比较优秀或者是代表作的方法常常是看有多少人引用它，但是这种判断方法可以使用自己引用自己或者作者之间互相引用而达到作弊，现在对于论文的影响因子的作弊方法计算相对复杂。pagerank的算法思想借助于文献计量学(Bibliometrics)。 在浩瀚的网络环境中，我们可以将互联网可以看成是文档之间超链接组成的有向图，其中节点是互联网中的文档，而边则是互联网之间的超链接。我们访问网页的时 候总是习惯于首先输入一个网址，然后在根据网站上的链接，进入其他的网站。对于这种情况我们认为他是一个random suffer，他首先进入一个网页，然后又以一个随机的方式进入另一个网页。在pagerank算法中实际中分两种，一种是主题相关的，另一种是与主题无 关的。例如：当random suffer进入网页A，而A又有三个指向其他三个网页的超链接B,C,D那么他有A到B，C或者D的概率就是1/3。对于从互联网中的一个网站进入到另 一个网站，我们可以与一维马尔可夫链的性质联系起来，对于马尔可夫链来说是从一个状态转换到另一个状态。当马尔科夫链达到稳定状态时，所求出来的转移矩阵 的值，就称为pagerank的值。 记录网站之间的链接关系的有向图，我们称为网络图的链接矩阵，一般用A来表示，对于从一个状态转换到另一个状态的概率，我们称之为状态转移概率，而有这些 概率所组成的矩阵，称为状态转移矩阵，在这里我们用用P来表示。一个random suffer直接进入一个网站的概率是α。 根据pagerank的计算公式，我们现在只需要知道状态转移的概率就能够计算出每个节点的pagerank的值。状态转移概率矩阵P方法如下： 首先构建网络图的邻接矩阵A （N*N矩阵，其中N为马尔可夫链中状态个数）对于邻接矩阵中其中有一行全部为0的元素，将其用1/N代替。对于一行不全为0的元素，构建由下面几个步骤完成； 对于不是1的元素由1/n(n为这行中所有不为0的元素的个数)；图1中的分别为1/3。 将结果矩阵乘以(1-α)； 对于结果矩阵中的每一项加上α/N。 这个可能和我们在平常所看到的pagerank的算法的书写公式可能会有所不一样，因为我们常常见到的pagerank的算法公式常常如下所示： 其中PR(B)为B的pagerank的值，L(B)为网页B中的超链接数(outlink)。其实这个公式的算法和上面所描述的算法是一样的，只是表现 上不同而已，如果将上述的状态转移概率在计算的时候将两个α/N和后面的部分分开来计算的话，每一项的结果和上述所得的结果一致（这里的1-d对应于状态 转移矩阵计算用的α）。]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/9/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
<!-- WP Super Cache is installed but broken. The path to wp-cache-phase1.php in wp-content/advanced-cache.php must be fixed! -->
