<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
	xmlns:media="http://search.yahoo.com/mrss/"
>

<channel>
	<title>Just learning and thinking &#187; 信息检索</title>
	<atom:link href="http://www.rushcj.com/laomi/archives/tag/%e4%bf%a1%e6%81%af%e6%a3%80%e7%b4%a2/feed" rel="self" type="application/rss+xml" />
	<link>http://www.rushcj.com/laomi</link>
	<description></description>
	<lastBuildDate>Tue, 01 Nov 2011 15:57:18 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
	<!-- podcast_generator="podPress/8.8" - maintenance_release="8.8.4" -->
		<copyright>2006-2007 </copyright>
		<managingEditor>laomi4569@gmail.com (Just learning and thinking)</managingEditor>
		<webMaster>laomi4569@gmail.com (Just learning and thinking)</webMaster>
		<category>posts</category>
		<itunes:keywords></itunes:keywords>
		<itunes:subtitle></itunes:subtitle>
		<itunes:summary>Just learning and thinking</itunes:summary>
		<itunes:author>Just learning and thinking</itunes:author>
		<itunes:category text="Society &amp; Culture"/>
		<itunes:owner>
			<itunes:name>Just learning and thinking</itunes:name>
			<itunes:email>laomi4569@gmail.com</itunes:email>
		</itunes:owner>
		<itunes:block>No</itunes:block>
		<itunes:explicit>no</itunes:explicit>
		<itunes:image href="http://www.rushcj.com/laomi/wp-content/plugins/podpress/images/powered_by_podpress_large.jpg" />
		<image>
			<url>http://www.rushcj.com/laomi/wp-content/plugins/podpress/images/powered_by_podpress.jpg</url>
			<title>Just learning and thinking</title>
			<link>http://www.rushcj.com/laomi</link>
			<width>144</width>
			<height>144</height>
		</image>
		<item>
		<title>估计得忙一阵子了</title>
		<link>http://www.rushcj.com/laomi/archives/169</link>
		<comments>http://www.rushcj.com/laomi/archives/169#comments</comments>
		<pubDate>Sat, 17 Oct 2009 12:41:03 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[开发日志]]></category>
		<category><![CDATA[信息检索]]></category>
		<category><![CDATA[地名引擎]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=169</guid>
		<description><![CDATA[自己这一年多来一直忙着实验室的那点项目，说句实话现在做的东西真的是很难投入使用，目前自己的总结原因有：开发氛围不好，简单的来说很多人都没有把这项目当回事（估计老板也差不多），所以从项目管理上很难入手；业务分析不够透彻，做软件产品的话，就必须得好好的分析一下实际情况，我们基本上是凭空想象。最近老板又让我做地名引擎，说句实话，我的兴致很高，就怕哪一天他对这个不感兴趣，我又是瞎折腾了。 目前总体上可以这么说，地图数据我们已经有了，至于这个地名引擎不在于地图本身，其主要是基于地名数据基础之上的。自己大概花了两天的时候好好的将自己要做的东西勾勒了一下，然后将自己第一期要完成的目标也确定了一下，最后定了一下关于地名引擎的技术基础。我们实验室是做应急方向的，所以我们做的地名引擎其主要的还是围绕着应急。关于这个系统我前面的工作主要是将把他当做一个系统来完成，解决问题的方法也主要是从工程的角度来思考（说句实话，在实验室做研究我实在是不怎么感兴趣，因为……）。第一期的主要目的就是将实验室目前的数据以地名为中心展现出来，其主要的开发的环境： OS:ubuntu8.10 开发语言:java 第三方工具:htmlparser、lucene 2.4 从目前的角度上来说，从网上爬取过来的数据相对来说都比较简单，所以数据抽取部分的工作相对来说就比较简单了。前天自己花了点时间，大概的分析了一下系统的基本功能，根据自己的一些理解之后大概的确定了一下程序的主要框架结构，然后自己用java代码写了一下程序的框架结构。从设计模式的角度来思考的话，目前自己主要是参考了观察者模式。计划在下周六能够直接用lucene将地名的索引先创建出来，然后根据用户输入的地名信息，将把介绍地名的相关数据先展现出来。不过这里面可能会出现一些问题，哪就是搜索条件的扩展问题，目前关于这个问题的解决办法还没有想出来。 现在没有拿到完全的数据，至于根据一个地名到底需要展现多少信息目前来说还确定不了（不知道这个是不是就是他们博士们在讨论的不确定性分析）。为了保证数据展现的精确性，所以在地名处理方面要做的工作还是很多的，比如：如何在一个案例中，描述的信息不够完备的情况下，能比较准确的描述事件发生的地点信息等。 今天只是一个开始，今后将自己在开发地名引擎遇到的相关问题和自己一些思考总结下来，希望能够得到各位高手的指点。]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/169/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>假期快要结束了</title>
		<link>http://www.rushcj.com/laomi/archives/167</link>
		<comments>http://www.rushcj.com/laomi/archives/167#comments</comments>
		<pubDate>Tue, 06 Oct 2009 05:24:13 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[心情日志]]></category>
		<category><![CDATA[基于内容推荐]]></category>
		<category><![CDATA[信息检索]]></category>
		<category><![CDATA[减肥]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=167</guid>
		<description><![CDATA[放假之前做了很多的计划：去杭州，结果晓华离不开工作地方，结果没去；去晓华那里买衣服，最后如尝所愿；去度假村，说实话没钱去那里，我不知道能干什么，最后决定不去；调试c/s程度，结果没做，现在想做实验室没电了；写一份关于基于内容的推荐系统的报告，到现在还没有开笔。做了这么多的计划，最后也就是去了晓华那里，结果在他那里还做了一个奇怪的梦，发现我自己已经很被外面的世界所吸引了，感觉在学校上学越来越没有什么意思了。 放假结束后事情就多了，都是自己一直拖下来的，调试c/s程序，写基于内容的推荐系统报告和老板前段时间让我做的信息检索系统。一想到这些就觉得很累，想睡觉。觉得自己真的是从思想上有点堕落了，也不怎么喜欢看书了，准确的来说看书没有以前的那股激情了，看书也比较浮躁。不知道是季节的原因还是自己浮躁，做什么事情都很难坚持下来。其实自己也明白少了一份坚持，就会多一份失败，如何去约束自己的呢？也有可能是最近和一些朋友和同学聊的关于他们工作事情聊的太多了，以至于自己还是希望早点参加工作，毕竟自己的年龄真的不算小了，读了这么多年的书也读烦了。 昨天晚上自己看了一部动画片《Shool Days》，看完之后感觉有点不爽，结局太惨了，到现在还是有点接受不了结局。自己平常就不怎么喜欢看伦理片（这个动画片片不是伦理片），因为这样的片子结局往往太现实了，也常常很悲伤。记得前段时间一朋友和我说：在结婚前，觉得感情就是一切，因为自己是全心全意爱着他；结婚后，觉得感情只是很小的一部分，因为再也没有恋爱时的那股热情了。对于我来说，我从来都没有把感情看作是我的一切，我的思考问题的方式往往和我年龄段真的有点不符合，这也是别人说我是70年代人的主要原因吧。不知道为什么，在感情这条道路上，我一直很难承担责任，也不知道是不是自己一无所有的原因还是其他的，一旦谈到婚姻问题时，自己往往会刻意的去回避。 假期快结束了，这两天只想好好的静静，把自己好好的调理一下，因为10月份很有可能是我最繁忙的一个月，只能是好好加油了。]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/167/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>语义搜索引擎&#8212;Swoogle</title>
		<link>http://www.rushcj.com/laomi/archives/31</link>
		<comments>http://www.rushcj.com/laomi/archives/31#comments</comments>
		<pubDate>Sat, 18 Jul 2009 13:10:28 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[语义搜索]]></category>
		<category><![CDATA[信息检索]]></category>
		<category><![CDATA[semantic search]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=31</guid>
		<description><![CDATA[&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;随着语义web的提出和owl成为w3c的规范，人们根据自己的领域需求和对事物的理解，构建了很多本体。随着本体数量的增加，如何共享这些本体也已经成为了一个问题，随之便产生了Swoogle这样的对语义web文档检索的搜索引擎。Swoogle主要有三个主要功能：搜索本体，主要是为减少在不知道有相关的本体条件下随意的创建本体，起到一个本体复用的作用，它主要是检索在文档中 的任何地方的术语（包括在注释中的术语），或者是本体汇总的类和属性的术语以及本体是要查找的术语；发掘实例数据，主要是工作查询什么类和什么属性来查询 实例（关于这一点还是有点迷糊）；描述语义web的特征（characterizing the semantic web），通过对语义文档的元数据和对文档内部关系的收集。 &#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160; Swoogle从目前接触的情况来看，它之所以叫做语义搜索引擎其主要原因是因为它检索的目标是语义文档吧。它所用的技术基本上都是传统的搜索引擎所用到 的技术没有什么区别，在创建索引方面就直接使用目前的倒排索引的方式来创建索引。在做索引的时候没有用到对检索内容的推理和本体匹配的技术等等，也没有用 到。swoogel的ranking和google的pagerank原理基本上都是一样的，google的pagerank是根据网页文档当中的超连接 来进行分析，而swoogle的ranking是根据语义文档中的引用和扩展其他的本体中的概念和关系，从分析的实质上讲没有什么差别。在计算方面也比较 简单也是直接按照pagerank的算法公式差不多： Li Ding, Tim Finin, Anupam Joshi, Rong Pan, R. Scott Cost, Yun Peng, Pavan Reddivari, Vishal C Doshi, and Joel Sachs Proceedings of the Thirteenth ACM Conference on Information and Knowledge Management November 09, 2004 Introduction to Information Retrieval. C.D. Manning, P. Raghavan, [...]]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/31/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>超链接分析&#8211;PageRank</title>
		<link>http://www.rushcj.com/laomi/archives/9</link>
		<comments>http://www.rushcj.com/laomi/archives/9#comments</comments>
		<pubDate>Tue, 30 Jun 2009 02:41:59 +0000</pubDate>
		<dc:creator>laomi</dc:creator>
				<category><![CDATA[信息检索]]></category>
		<category><![CDATA[超链接分析]]></category>
		<category><![CDATA[pagerank]]></category>

		<guid isPermaLink="false">http://www.rushcj.com/laomi/?p=9</guid>
		<description><![CDATA[我们知道，在评价一篇论文它是否是这个领域当中比较优秀或者是代表作的方法常常是看有多少人引用它，但是这种判断方法可以使用自己引用自己或者作者之间互相引用而达到作弊，现在对于论文的影响因子的作弊方法计算相对复杂。pagerank的算法思想借助于文献计量学(Bibliometrics)。 在浩瀚的网络环境中，我们可以将互联网可以看成是文档之间超链接组成的有向图，其中节点是互联网中的文档，而边则是互联网之间的超链接。我们访问网页的时 候总是习惯于首先输入一个网址，然后在根据网站上的链接，进入其他的网站。对于这种情况我们认为他是一个random suffer，他首先进入一个网页，然后又以一个随机的方式进入另一个网页。在pagerank算法中实际中分两种，一种是主题相关的，另一种是与主题无 关的。例如：当random suffer进入网页A，而A又有三个指向其他三个网页的超链接B,C,D那么他有A到B，C或者D的概率就是1/3。对于从互联网中的一个网站进入到另 一个网站，我们可以与一维马尔可夫链的性质联系起来，对于马尔可夫链来说是从一个状态转换到另一个状态。当马尔科夫链达到稳定状态时，所求出来的转移矩阵 的值，就称为pagerank的值。 记录网站之间的链接关系的有向图，我们称为网络图的链接矩阵，一般用A来表示，对于从一个状态转换到另一个状态的概率，我们称之为状态转移概率，而有这些 概率所组成的矩阵，称为状态转移矩阵，在这里我们用用P来表示。一个random suffer直接进入一个网站的概率是α。 根据pagerank的计算公式，我们现在只需要知道状态转移的概率就能够计算出每个节点的pagerank的值。状态转移概率矩阵P方法如下： 首先构建网络图的邻接矩阵A （N*N矩阵，其中N为马尔可夫链中状态个数）对于邻接矩阵中其中有一行全部为0的元素，将其用1/N代替。对于一行不全为0的元素，构建由下面几个步骤完成； 对于不是1的元素由1/n(n为这行中所有不为0的元素的个数)；图1中的分别为1/3。 将结果矩阵乘以(1-α)； 对于结果矩阵中的每一项加上α/N。 这个可能和我们在平常所看到的pagerank的算法的书写公式可能会有所不一样，因为我们常常见到的pagerank的算法公式常常如下所示： 其中PR(B)为B的pagerank的值，L(B)为网页B中的超链接数(outlink)。其实这个公式的算法和上面所描述的算法是一样的，只是表现 上不同而已，如果将上述的状态转移概率在计算的时候将两个α/N和后面的部分分开来计算的话，每一项的结果和上述所得的结果一致（这里的1-d对应于状态 转移矩阵计算用的α）。]]></description>
		<wfw:commentRss>http://www.rushcj.com/laomi/archives/9/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
<!-- WP Super Cache is installed but broken. The path to wp-cache-phase1.php in wp-content/advanced-cache.php must be fixed! -->
