Posts Tagged ‘信息检索’

估计得忙一阵子了

Posted in 开发日志 on October 17th, 2009 by laomi – Be the first to comment

自己这一年多来一直忙着实验室的那点项目,说句实话现在做的东西真的是很难投入使用,目前自己的总结原因有:开发氛围不好,简单的来说很多人都没有把这项目当回事(估计老板也差不多),所以从项目管理上很难入手;业务分析不够透彻,做软件产品的话,就必须得好好的分析一下实际情况,我们基本上是凭空想象。最近老板又让我做地名引擎,说句实话,我的兴致很高,就怕哪一天他对这个不感兴趣,我又是瞎折腾了。

目前总体上可以这么说,地图数据我们已经有了,至于这个地名引擎不在于地图本身,其主要是基于地名数据基础之上的。自己大概花了两天的时候好好的将自己要做的东西勾勒了一下,然后将自己第一期要完成的目标也确定了一下,最后定了一下关于地名引擎的技术基础。我们实验室是做应急方向的,所以我们做的地名引擎其主要的还是围绕着应急。关于这个系统我前面的工作主要是将把他当做一个系统来完成,解决问题的方法也主要是从工程的角度来思考(说句实话,在实验室做研究我实在是不怎么感兴趣,因为……)。第一期的主要目的就是将实验室目前的数据以地名为中心展现出来,其主要的开发的环境 read more »

假期快要结束了

Posted in 心情日志 on October 6th, 2009 by laomi – Be the first to comment

放假之前做了很多的计划:去杭州,结果晓华离不开工作地方,结果没去;去晓华那里买衣服,最后如尝所愿;去度假村,说实话没钱去那里,我不知道能干什么,最后决定不去;调试c/s程度,结果没做,现在想做实验室没电了;写一份关于基于内容的推荐系统的报告,到现在还没有开笔。做了这么多的计划,最后也就是去了晓华那里,结果在他那里还做了一个奇怪的梦,发现我自己已经很被外面的世界所吸引了,感觉在学校上学越来越没有什么意思了。

放假结束后事情就多了,都是自己一直拖下来的,调试c/s程序,写基于内容的推荐系统报告和老板前段时间让我做的信息检索系统。一想到这些就觉得很累,想睡觉。觉得自己真的是从思想上有点堕落了,也不怎么喜欢看书了,准确的来说看书没有以前的那股激情了,看书也比较浮躁。不知道是季节的原因还是自己浮躁,做什么事情都很难坚持下来。其实自己也明白少了一份坚持,就会多一份失败,如何去约束自己的呢?也有可能是最近和一些朋友和同学聊的关于他们工作事情聊的太多了,以至于自己还是希望早点参加工作,毕竟自己的年龄真的不算小了,读了这么多年的书也读烦了。 read more »

语义搜索引擎—Swoogle

Posted in 语义搜索 on July 18th, 2009 by laomi – Be the first to comment

        随着语义web的提出和owl成为w3c的规范,人们根据自己的领域需求和对事物的理解,构建了很多本体。随着本体数量的增加,如何共享这些本体也已经成为了一个问题,随之便产生了Swoogle这样的对语义web文档检索的搜索引擎。Swoogle主要有三个主要功能:搜索本体,主要是为减少在不知道有相关的本体条件下随意的创建本体,起到一个本体复用的作用,它主要是检索在文档中 的任何地方的术语(包括在注释中的术语),或者是本体汇总的类和属性的术语以及本体是要查找的术语;发掘实例数据,主要是工作查询什么类和什么属性来查询 实例(关于这一点还是有点迷糊);描述语义web的特征(characterizing the semantic web),通过对语义文档的元数据和对文档内部关系的收集。
         Swoogle从目前接触的情况来看,它之所以叫做语义搜索引擎其主要原因是因为它检索的目标是语义文档吧。它所用的技术基本上都是传统的搜索引擎所用到 的技术没有什么区别,在创建索引方面就直接使用目前的倒排索引的方式来创建索引。在做索引的时候没有用到对检索内容的推理和本体匹配的技术等等,也没有用 到。swoogel的ranking和google的pagerank原理基本上都是一样的,google的pagerank是根据网页文档当中的超连接 来进行分析,而swoogle的ranking是根据语义文档中的引用和扩展其他的本体中的概念和关系,从分析的实质上讲没有什么差别。在计算方面也比较 简单也是直接按照pagerank的算法公式差不多: read more »

超链接分析–PageRank

Posted in 信息检索 on June 30th, 2009 by laomi – Be the first to comment

我们知道,在评价一篇论文它是否是这个领域当中比较优秀或者是代表作的方法常常是看有多少人引用它,但是这种判断方法可以使用自己引用自己或者作者之间互相引用而达到作弊,现在对于论文的影响因子的作弊方法计算相对复杂。pagerank的算法思想借助于文献计量学(Bibliometrics)。

在浩瀚的网络环境中,我们可以将互联网可以看成是文档之间超链接组成的有向图,其中节点是互联网中的文档,而边则是互联网之间的超链接。我们访问网页的时 候总是习惯于首先输入一个网址,然后在根据网站上的链接,进入其他的网站。对于这种情况我们认为他是一个random suffer,他首先进入一个网页,然后又以一个随机的方式进入另一个网页。在pagerank算法中实际中分两种,一种是主题相关的,另一种是与主题无 关的。例如:当random suffer进入网页A,而A又有三个指向其他三个网页的超链接B,C,D那么他有A到B,C或者D的概率就是1/3。对于从互联网中的一个网站进入到另 一个网站,我们可以与一维马尔可夫链的性质联系起来,对于马尔可夫链来说是从一个状态转换到另一个状态。当马尔科夫链达到稳定状态时,所求出来的转移矩阵 的值,就称为pagerank的值。 read more »