PR3是什么意思?

PageRank又称页面排名、Google left排名或页面排名,是搜索引擎根据页面之间的超链接计算出来的页面排名技术,以Google创始人拉里·佩奇(Larry Page)的名字命名。这项技术通常与搜索引擎优化有关,谷歌用它来反映网页的相关性和重要性。谷歌的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。[1]

PageRank通过网络庞大的超链接关系来决定一个页面的级别。Google把A页到B页的链接解释为A页给B页投票,Google根据投票来源(甚至是来源的来源,也就是链接到A页的页面)和投票对象的等级来确定新的等级。简单来说,一个高水平的页面可以提升其他低水平页面的水平。

PageRank要求链接“投票”

一个页面的“投票数”是由链接到它的所有页面的重要性决定的。一个页面的超链接相当于为该页面投票。一个页面的PageRank是通过递归算法从链接到它的所有页面(“链接页面”)的重要性中得到的。有更多链接的页面会有更高的排名。相反,如果一个页面没有任何链接,它就没有排名。

2005年初,Google为web链接引入了一个新的属性nofollow,使得站长和博主可以做一些Google不算投票的链接,也就是说这些链接不算“投票”。Nofollow设置可以抵御评论垃圾。

谷歌工具栏上的PageRank指标范围从0到10。好像是对数标度算法,细节未知。PageRank是谷歌的商标,其技术已经获得专利。

PageRank算法中的点击算法是由乔恩·克莱因伯格提出的。

PageRank算法

简单的

假设有一小组四个页面:A、B、C和D。如果所有页面都链接到A,那么A的PR(PageRank)值将是B、C和D的总和..

PR(A) = PR(B) + PR(C) + PR(D)

继续假设B也链接到C,D也链接到包括A在内的3个页面..你不能在一页上投两次票。所以b给每页半张票。同样的逻辑,D投的票只有三分之一算在A的PageRank上。

PR(A)= \ frac { PR(B)} { 2 }+\ frac { PR(C)} { 1 }+\ frac { PR(D)} { 3 }

换句话说,一个页面的PR值是按照链接总数平分的。

PR(A)= \ frac { PR(B)} { L(B)}+\ frac { PR(C)} { L(C)}+\ frac { PR(D)} { L(D)}

最后把这些都换算成百分比,再乘以一个系数q,因为下面的算法,没有页面的PageRank会是0。那么,Google通过数学系统给每个页面一个最小值1?问.

PR(A)= \ left(\ frac { PR(B)} { L(B)}+\ frac { PR(C)} { L(C)}+\ frac { PR(D)} { L(D)}+\,\cdots \right) q + 1 - q

所以一个页面的PageRank是通过其他页面的PageRank计算出来的。谷歌反复计算每个页面的PageRank。如果你给每个页面一个随机的PageRank值(非0),那么经过反复计算,这些页面的PR值会趋于正常稳定。这就是搜索引擎使用它的原因。

完成

这个方程引入了随机浏览的概念,就是某个人在网上无聊的时候,随机打开了一些页面,点击了一些链接。页面的PageRank值也会影响其被随机浏览的概率。为了便于理解,假设冲浪者不断点击网页上的链接,最终到达一个没有任何链接页面的网页。这时候冲浪者会随机去另一个网页开始浏览。

为了对那些有链接的页面公平,将Q = 0.15(Q的含义见上文)的算法应用于所有页面,以估计页面可能被互联网用户加书签的概率。

所以,这个等式如下:

{ \ RM page rank }(p _ I)= \ frac { q } { N }+(1-q)\ sum _ { p _ j } \ frac { { \ RM page rank }(p _ j)} { L(p _ j)}

P1,p2,...,pN是学习的页面,M(pi)是链接到pi中的页面数量,L(pj)是链接出pj的页面数量,N是所有页面的数量。

PageRank值是一个特殊矩阵中的特征向量。这个特征向量是

\mathbf{R} = \begin{bmatrix}

r是等式的答案

\ mathbf { R } = \ begin { b matrix } { q/N } \ \ { q/N } \ \ \ v dots \ \ { q/N } \ end { b matrix }+(1-q)\ begin { b matrix } \ ell(p _ 1,p _ 1)& amp;\ell(p_1,p _ 2)& amp;\ cdots & amp\ell(p_1,p _ N)\ \ ell(p _ 2,p _ 1)& amp;\ ddots & amp& amp\ \ \ vdots & amp& ampell(p_i,p _ j)& amp;\\ \ell(p_N,p _ 1)& amp;& amp& amp\ell(p_N,p_N) \end{bmatrix} \mathbf{R}

\ell(p_i,p_j)等于0,如果pj没有链接到pi,并且对每个j都成立。

\sum_{i = 1}^N \ell(p_i,p_j) = 1,

这种技术的主要缺点是旧页面级别会高于新页面。因为即使是非常好的新页面,也不会有很多上游链接,除非是一个站点的子站点。

这也是PageRank需要多种算法结合的原因。PageRank似乎倾向于维基百科页面,在条目名称的搜索结果中总是领先于大多数或所有其他页面。主要原因是维基百科和很多站点之间有很多链接。

谷歌经常惩罚恶意的行为来提高PageRank,但是如何区分正常的链接交换和异常的链接累积仍然是一个商业秘密。