Page 1 of 1

在每个域上选择伪随机起点

Posted: Mon Feb 17, 2025 6:29 am
by kexej28769@nongnue
因为我们知道 Quantcast 百万强是按流量排名的,并且希望减少这种偏差,所以我们引入了基于网站大小的新偏差。对于这 10,000 个网站中的每一个,我们使用“site:”命令根据 Google 识别该网站上的页面数量,并检索该域的前 100 个页面。我们现在可以平衡“重要性偏差”和“大小偏差”,后者更能反映网络上 URL 的数量。这是减少 Quantcast 百万强网站中仅高质量网站的已知偏见的第一步。


下一步是随机选择偏向于大于 10,000 个站点的域。当系统选择一个站点时,它会从 Google 从该站点收集的前 100 个页面中随机选择。这有助于进一步减少重要性偏差。我们并不总是从主页开始。虽然这些页面是网站上的重要页面,但我们知道它们并不总是最重要的页面,即主页。这是减少已知偏见的第二步。较大网站上的低质量页面正在平衡 Quantcast 数据中的固有偏差。

4. 爬行,爬行,爬行
这就是我们做出最大改变的地方。我们实际上是从 加纳 WhatsApp 数据 这组伪随机 URL 开始抓取网络,生成一组真实的随机 URL。这里的想法是将我们内置到伪随机 URL 集中的所有随机化,让爬虫随机点击链接来生成真正随机的 URL 集。爬虫会从我们的伪随机爬行集中选择一个随机链接,然后随机开始点击链接,每次有 10% 的机会停止,有 90% 的机会继续。无论爬虫到达何处,最终 URL 都会添加到我们的随机 URL 列表中。这是我们用来运行指标的最后一组 URL。我们每月通过此过程生成约 140,000 个唯一 URL,以生成我们的测试数据集。


唷,现在怎么办?定义矩阵
一旦我们有了一组随机的 URL,我们就可以真正开始比较链接索引并测量它们的质量、数量和速度。幸运的是,在我追求“正确”的过程中,Moz 慷慨地为我提供了对竞争 API 的付费访问权限。我们一开始测试了 Moz、Majestic、Ahrefs 和 SEMRush,但最终在与 Majestic 合作后放弃了 SEMRush。

那么,既然我们有了网络的随机样本,我们可以回答哪些问题呢?这正是我在电子邮件中发送给 Moz 链接项目负责人的愿望清单。

尺寸:
与竞争对手相比,随机选择的 URL 出现在我们的索引中的概率是多少?
与竞争对手相比,随机选择的域出现在我们的索引中的概率是多少?
该索引报告某个 URL 的反向链接数量最多的概率是多少?
URL 向索引报告最大数量的根链接域的概率是多少?
该索引报告某个域的最大反向链接数量的概率是多少?