Google外链权值算法
Posted in SEO技术 on 07/08/2010 08:47 下午 by Marts大家都知道做外链的时候要注意,广泛性,权威性,相关性等等,那为什么我们要这样做,这样做以后,google是怎么样去看待这些外链了?
其实google核心算法有3种
1.PageRank算法
2.Hilltop算法
3.TSPR算法
PageRank算法:大家都很熟悉了,算法理念“从许多优质的网页链接过来的网页,必定还是优质网页”。
上图,可以看出不考虑标签的情况,PageRank算法影响外链的因素有3点
a.反向链接数 (单纯的意义上的受欢迎度指标)
b.反向链接是否来自推荐度高的页面 (有根据的受欢迎指标)
c.反向链接源页面的链接数 (被选中的几率指标)
ok,知道上面三点以后,最后pr得分是怎么样计算出来了?
pr得分计算很复杂,这里用简单例子理解去解释得分
假设有3个网页彼此互链形成一个封闭的网格。
即:
1 —-> 2,3
2 —-> 1
3 —-> 2
他们关系实际上可以看成一个3*3的位列图,用1表示链接,0表示不链接
0 1 1
1 0 0
1 0 0
根据每个网页PR投票值(nofollow标签在这里影响最后得分),相互链接关系等等因素,将3*3的位列图换算为
0 1 1/2
1/5 0 0
1/5 0 0
根据上面,
PR分值的计算公式:PR(A) = (1-d) + d(PR(t1)/C(t1) + …… + PR(tn)/C(tn))
PR(t1)表示该外部链接网站本身的PR分值
C(t1)则表示该外部链接站点所拥有的外部链接数量
d:叫阻尼因子,为链接到另外一个站点时所获得的实际PR分值,一般为0.85
假设PR值为4,外部链接数为9,PR(A) = (1-0.85) + 0.85*(4/9)PR(A) = 0.15 + 0.34 PR(A) = 0.49
假设PR值为4,外部链接数为16,PR(A) = (1-0.85) + 0.85*(8/16)PR(A) = 0.15 + 0.425 PR(A) = 0.575
要注意一点,上面的公式是拉里.佩奇在毕业论文里面计算原始公式,不代表google现在pr计算,但是根据我去年,google工程师来IBM做分不式搜索引擎的seminar
上面的原话,这么多年google核心算法只是丰富了,没有更改,可以理解,google实际算法是在上面算法基础加上了更多的考虑因素,并没有颠覆这个公式
ok,我们可以看出来除了上面3点因素,我们得到第四做外链的要素
d.来至同等PR网站的外链,网站总外链数越少,获得PR值越高
Hilltop算法:它为了弥补Pagerank算法中的一个缺陷,即Pagerank根据一个网页上被链接的站点数量和质量来给该网页分配一个绝对的PR,但是PR并非针
对查询词语,因而一个同页如果只是在内容中偶然提到了一个和查询主题偏离的关键词语,也会因其居高的PR值而获得一个比较高的排名。
Hilltop得分:页面相关性得分(RelevancyScore)+页面等级得分(PageRank)+Hilltop得分
google系统会根据查询关键词进行一次普通查询,找出所有匹配的“专家网页”,剔除其中的成员和镜像站点,然后根据目标网页获得的上述专家文档的链接数量和质量分配一个“行业分”,就是所谓的hilltop得分。
这里要特别注意的是,Google对于hilltop算法设置了搜索次数阀值,凡是超过这个值的查询关键字都会进入hilltop算法。如果没有超过,则按照原来算法。这样就导致了新站点很难在热门的关键词上取得好的排名。(所以不要相信所谓什么沙盒现象)
从这里我们可以看出做外链的要素
e.行业官方资源是外链的首选(注意不一定是edu,org对于高pr博客,评测等等也可考虑为专家网站)
TSPR算法:网站的排名是由页面相关性得分(RelevancyScore)+页面等级得分(PageRank)+TSPR得分决定的。TSPR算法针对一个查询来确定一个URL对该查询的TSPR得分,作为排名的一个重要依据,大大提高了返回结果的主题相关性。而计算一个URL对该查询的TSPR得分是依赖于开放目录(ODP,如Yahoo, Dmoz等)。
f.google对一些免费的高PR值的开放目录是比较认同(不一定是dmoz)
这里要提一件事情,,Google在2004年收购了Applied Semantics,google实际要向要的是Applied Semantics的CIRCA专利。
CIRCA 技术简单一点来说,它里面建立了千万级的关键字,关键字含义,已经有他们扩展出来相关的行业,概念等等,并且CIRCA 针对上述
建立出自己的一套相关性的计算模型。
这个对现在google有什么意义了,我们可以理解为google会越来越“聪明”,你搜索“羽毛球”,可能再CIRCA 里面会涉及到健身,健身馆等相关的词组或者概念。这里和上面相关性有区别,它是根据人类行为活动,思维相关联的。
g.注意广泛的外链,进行产品扩展外链