超链接分析–PageRank

Posted: June 30th, 2009 | Author: laomi | Filed under: 信息检索 | Tags: , , | No Comments »

我们知道,在评价一篇论文它是否是这个领域当中比较优秀或者是代表作的方法常常是看有多少人引用它,但是这种判断方法可以使用自己引用自己或者作者之间互相引用而达到作弊,现在对于论文的影响因子的作弊方法计算相对复杂。pagerank的算法思想借助于文献计量学(Bibliometrics)。

在浩瀚的网络环境中,我们可以将互联网可以看成是文档之间超链接组成的有向图,其中节点是互联网中的文档,而边则是互联网之间的超链接。我们访问网页的时 候总是习惯于首先输入一个网址,然后在根据网站上的链接,进入其他的网站。对于这种情况我们认为他是一个random suffer,他首先进入一个网页,然后又以一个随机的方式进入另一个网页。在pagerank算法中实际中分两种,一种是主题相关的,另一种是与主题无 关的。例如:当random suffer进入网页A,而A又有三个指向其他三个网页的超链接B,C,D那么他有A到B,C或者D的概率就是1/3。对于从互联网中的一个网站进入到另 一个网站,我们可以与一维马尔可夫链的性质联系起来,对于马尔可夫链来说是从一个状态转换到另一个状态。当马尔科夫链达到稳定状态时,所求出来的转移矩阵 的值,就称为pagerank的值。 Read the rest of this entry »


学习记录的开始

Posted: June 18th, 2009 | Author: laomi | Filed under: 开发日志 | Tags: | 1 Comment »

其实自己一直想弄一个blog来记录一下自己的学习,一是为了督促自己好好学习知识,另一方面是希望得到网上的朋友们的指导。

在实验室,目前自己的方向主要是定位是信息检索,而自己的定位主要是在相似度计算方面。目前打算读的比较系统资料有:

  1. Introduction to Information Retrieval. C.D. Manning, P. Raghavan, H. Schütze. Cambridge UP, 2008. Classical and web information retrieval systems: algorithms, mathematical foundations and practical issues.
  2. Managing Gigabytes. I.H. Witten, A. Moffat, T.C. Bell. Morgan Kaufmann, 1999. The authority on index construction and compression.

在论文方面目前也主要是分两部分来读,一部分是一些基础部分,这部分主要是针对一些综述性论文,还有就是一些比较经典型的论文,比如pagerank,hits等。再结合自己的工作,然后针对的去读一些论文吧,目前自己论文工作正在整理中(还得和老板好好的商量)。

今后在blog上主要内容还是搜索相关的信息和自己的学习体会,然后会对自己读的书或者是论文写一些总结性的文章。希望大家批评指导。