Pr使用过程中没有轨迹怎么办?
PR全称PageRank,2001年9月获美国专利。专利权人是谷歌的创始人之一拉里·佩奇(Larry Page)。所以pageRank中的page指的不是网页,而是Page,也就是这种排名方式以Page命名。
算法介绍
PageRank
基本思路:如果有网页T到网页A的链接,说明T的拥有者认为A更重要,从而给出T的一部分重要性分数。这个重要性分数的值是:PR(T)/C(T)
其中PR(T)是T的PageRank值,C(T)是T的链数,那么a的PageRank值就是一系列类似于T的页面重要性分数的累加。
PR(A)=(1-d)+d(PR(t 1)/C(t 1)+…+PR(TN)/C(TN))
a代表页面a。
PR(A)表示页面A的PR值。
d是阻尼指数。一般认为D=0.85。
T1…tn代表链接到页面a的页面T1到tn。
c表示页面上外部链接的数量。C(t1)是页面上外部链接的数量t1。
从计算公式可以看出,PR值的计算必须通过迭代计算得到。
优点:是与查询无关的静态算法,所有网页的PageRank值都是离线计算得到的;有效减少了在线查询时的计算量,大大降低了查询响应时间。
缺点:人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和话题性降低;此外,PageRank对新网页歧视严重。
话题敏感的
(主题敏感页面排名)
基本思路:是针对PageRank对主题的忽视而提出的。核心思想:离线计算一个PageRank向量集合,集合中的每个向量都与某个话题相关,即计算一个页面在不同话题上的得分。主要分为两个阶段:与话题相关的PageRank向量集的计算和在线查询时话题的确定。
优点:根据用户的查询请求和相关上下文,准确判断与用户查询相关的话题(用户的兴趣)并返回查询结果。
缺点:没有利用话题的相关性来提高链接评分的准确性。
小山顶
基本思路:和PageRank的区别在于只考虑专家页面的链接。主要包括两个步骤:专家页面搜索和目标页面排序。优点:相关性强,结果准确。缺点:专家页面的搜索和确定对算法起着关键作用,专家页面的质量决定了算法的准确性,而专家页面的质量和公平性难以保证;忽略大量非专家页面的影响,无法反映整个互联网的民意;当没有足够的专家页面时,它返回空的,因此Hilltop适合于细化查询排名。