什么样的外链才算有效?研究了近千条外链后得出的结论

很多人认为外链只要做了就会有效果,其实并非如此。我们针对近千条外链数据做了一次实验,得到了意想不到的结果。先说结论,外链只有索引才算有效,而由外链带来的提升还需要看外链本身的权重。

以下是实验、以及得出结论的过程:

外链研究过程

思路:将搜索引擎认可的外链进行索引检测。如果搜索引擎认可的外链检测出的索引率无限接近 100%。那么就可以间接的证明,如果希望外链有效,那么必然外链是需要索引的。依照这个思路进行下面的实验:

提取外链数据

首先,我选取的站点都建站 2 年左右。它们的 GSC 覆盖率报告中的有效页面数量均 > 200。同时效果报告中日曝光数据都 > 2000。点击率数据都 > 1%。

为什么选择这些网站?这么做为了是确保这些站点确实过了沙盒期(审核期)、正常运行了一段时间、能获取自然搜索流量、正常做更新的网站。(即有代表性)

我提取了 5 个站点 Google Search Console 中的外链数据。

GSC > 选择目标域名 > 链接数量 > 导出外部链接 > 下载 “最新链接” 报告

GSC 下载网站的外链数据

为什么选择 “最新链接” 报告?

GSC 中的外链报告提供 ”最新链接“ 以及 ”更多示例链接“ 两个选项。当你的外链数量没有超过 100000 行时(上限就是 100000 行),这两个报告差异并不大。但是 ”最新链接“ 会按照抓取时间顺序进行排列。所以建议选择这个报告。除非你要检测的数据大于 100000 行时,才会将两个报告结合处理。

注意:选择网站时,我直接选择的是域级权限。选择的 5 个站点都没有子站。主域名就是主站,也只此一个站点。

5 个站点一共导出了不多不少 1234 条(正好是1234,我也挺意外的)数据。

数据降噪逻辑

由于 GSC 中的链接统计同步、更新的频率非常低。中间肯定会出现外链丢失、重定向、服务器无响应等情况。我们需要将这些数据给排除掉。只保留目前能够访问,并能够返回 200 状态码的外链页面。

为什么只统计返回 200 状态码的外链?因为 200 状态码代表当前页面依然存在。如果是其他类型的状态码,就代表页面内容要么丢失、要么转移、要么连网站本身都不在了。

这个时候我们只需要通过一些批量检测 http 状态码的在线工具,例如:httpstatus.iowebfx 等工具来协助我们完成 200 链接的检测、以及提取数据即可。

小知识:降噪是什么?就是将数据中错误、无效、没必要的数据通过算法、规律、肉眼等方式进行剔除。让数据更加合理化、便于归纳、整理、分析。广义上也可以叫做数据清洗。

数据降噪结果

在 1234 条数据检测结果中,验证有效链接共计 1223 条(去除编码问题、重复问题)。 200 状态码(正常)数据有 651 条。3xx 状态码(跳转)有 80 条。4xx(打不开的)有 65 条。5xx(服务器错误) 有 76 条。剩余的 351 条为 Time Out 或者 Cannot Open(这里的 351 条我也更换了多个代理IP、依然没有返回 200 的数据)。具体如下:

返回码/状态条数(条)占比(%)
总数1223100%
20065153.23%
3xx806.54%
4xx655.31%
5xx766.21%
其他错误35128.70%

检测索引状态

得到这些 200 http 状态码的 651 条外链 URL 之后,我们就可以进行批量的索引检测。这里我们使用索引大师(www.indexfixer.com)工具进行批量的索引检测,结果如下:

651 条 URL 中,索引的有 427 条,未索引的有 224 条。先别急着下结论,因为其中有些数据有偏差,并不能计算在内。

偏差的原因

偏差的原因有可能来自于 GSC 统计本生。因为索引大师工具是实时检测索引,而 GSC 的链接数据中很多都是过时的。通过上方的降噪检测就可以看出。我随即点开了一些判断为不索引的链接发现可能有这么几种情况:

情况 1

一种是,整个外链所在站点都没有任何索引数据。通过查看源代码文件发现有个网站已经屏蔽了抓取。这种极端情况占了整个不索引数据的一大半(一共 103 条数据,整体占比 15.82%)。应该是之前开放了索引,随后站长主动关闭的。

此类结果不应该计入统计。

情况 2

还有一种是,那种很明显就是 link farm 的页面。URL 后缀一摸一样。并且页面内部充斥了大量的第三方链接。有可能是最开始没有多少外部链接的时候,谷歌索引,当出站链接越来越多时,谷歌判断为了 Link Farm 取消了索引。但是报告依然没有更新。此类链接一共 29 条,整体占比 4.46%。

此类结果不应该计入统计。

情况 3

剩下的可能是在初次抓取时,谷歌索引了某条外链,但是由于多次的判断发现该外链并不符合规范、或其他原因,所以剔除了索引。但是链接报告并为同步更新。所以才导致了这些实时检测不索引的结果。

剩余的情况不好判断,所以保留该数据。

得出结论

如果排除掉情况1、情况2 的数据。得到的索引率就是 82.27%(427/519)。虽然并没有到 100%。考虑到情况3 中的因素、同时对比其他的外链检测数据:

发现,已经远超其他的外链索引检测数据。虽然不能得出绝对(100%)的结论。但是也可以说明,GSC 导出的 “有效” 外链的索引率数值足够的高,如果有办法能够进一步降低数据噪音,我相信数值会更加接近于 100%。

同样,也有可能是因为测试数据不够庞大(例如 情况1 中有很多相同域名下的外链)导致数据结果的偏差会比较明显。

关于外链权重

关于外链权重越高效果越好的验证,这部分也不需要我们去做测试。Ahrefs 工具、SEMrush 等工具完成了这个部分的验证。数据证明,外链质量越高、获得更多流量的比率也就越大。通常如果你能够从相关热门网站获得谷歌认可的外链,其带来的价值远超若干小网站带来的价值。

和其他工具的一些数据对比

我还额外的进行了几次有意思的测试。就是将 Ahrefs 检测的外链数据,和 GSC 中降噪后的数据做了索引结果对比(都是同一个网站的数据)。

PS:Ahrefs 的数据并不需要降噪。因为在 Ahrefs 中给出的外链结果都是经过 Ahrefs 检测有效、可访问的。所以没必要再进行数据降噪。

发现 Ahrefs 在统计外链数据时,可能将所有可抓取的外链都纳入了它的数据中,并由此计算了它的 DR、UR 等指标。

按照我们得到的结论,Ahrefs 统计的外链中有一部分可能谷歌并不 “认可”。也许它这么做,有工具本生的理由,我也不多加猜测。

不过这些并不妨碍 Ahrefs 依然是最伟大的 SEO 工具。毕竟我一直在强调,第三方工具给出的单一数值本身是没有意义的。在偏差值一定的情况下,数据的比例比单一数值更有价值

例如,引用域(RD)越高,自然关键词(流量)也会越高,但单一的引用域数值,在没有对照的情况下就没啥参考意义。

引用域(RD)越高,自然关键词(流量)也会越高

同样的,我们也对 Majestic、以及 Semrush 给出的外链数据(分别用的不同的网站数据)做了检测。结论一样。这些工具都没有进行索引的检测。应该是直接将抓取到外链统计进了它们的数据库中。

总结

在通过实验得出上述观点之前,我对外链一直有自己的想法。

我认为之所以有内链、外链之分,其实是站在我们自己的角度去看问题。但是当我们把视角拉高,就会发现,其实无论外链还是内链、对于谷歌来说只是隶属于某个域名下的页面而已。

我估计谷歌对外链的判断一定是分为两步。第一步就是判断是否索引、第二步才是赋值多少(也就是权重多少)。第一步解决的是 “有和没有” 的问题,而第二步解决的是 “多和少” 的问题。因为判断外链,其实和判断一个页面的好坏并没有分别。

基于上面的这些想法,才会有了本次外链的统计实验。你如果对本次实验结果有任何疑问可以在下方留言。如果你也测试了自己网站,我也希望你能将数据分享给我。届时我也会将你提供的数据纳入后续的统计中。