Posts Tagged ‘超链接分析’

超链接分析–PageRank

Posted in 信息检索 on June 30th, 2009 by laomi – Be the first to comment

我们知道,在评价一篇论文它是否是这个领域当中比较优秀或者是代表作的方法常常是看有多少人引用它,但是这种判断方法可以使用自己引用自己或者作者之间互相引用而达到作弊,现在对于论文的影响因子的作弊方法计算相对复杂。pagerank的算法思想借助于文献计量学(Bibliometrics)。

在浩瀚的网络环境中,我们可以将互联网可以看成是文档之间超链接组成的有向图,其中节点是互联网中的文档,而边则是互联网之间的超链接。我们访问网页的时 候总是习惯于首先输入一个网址,然后在根据网站上的链接,进入其他的网站。对于这种情况我们认为他是一个random suffer,他首先进入一个网页,然后又以一个随机的方式进入另一个网页。在pagerank算法中实际中分两种,一种是主题相关的,另一种是与主题无 关的。例如:当random suffer进入网页A,而A又有三个指向其他三个网页的超链接B,C,D那么他有A到B,C或者D的概率就是1/3。对于从互联网中的一个网站进入到另 一个网站,我们可以与一维马尔可夫链的性质联系起来,对于马尔可夫链来说是从一个状态转换到另一个状态。当马尔科夫链达到稳定状态时,所求出来的转移矩阵 的值,就称为pagerank的值。 read more »