Discuss Data

Posted: **Mon Feb 17, 2025 6:29 am**

因为我们知道 Quantcast 百万强是按流量排名的，并且希望减少这种偏差，所以我们引入了基于网站大小的新偏差。对于这 10,000 个网站中的每一个，我们使用“site:”命令根据 Google 识别该网站上的页面数量，并检索该域的前 100 个页面。我们现在可以平衡“重要性偏差”和“大小偏差”，后者更能反映网络上 URL 的数量。这是减少 Quantcast 百万强网站中仅高质量网站的已知偏见的第一步。

下一步是随机选择偏向于大于 10,000 个站点的域。当系统选择一个站点时，它会从 Google 从该站点收集的前 100 个页面中随机选择。这有助于进一步减少重要性偏差。我们并不总是从主页开始。虽然这些页面是网站上的重要页面，但我们知道它们并不总是最重要的页面，即主页。这是减少已知偏见的第二步。较大网站上的低质量页面正在平衡 Quantcast 数据中的固有偏差。

4. 爬行，爬行，爬行
这就是我们做出最大改变的地方。我们实际上是从加纳 WhatsApp 数据这组伪随机 URL 开始抓取网络，生成一组真实的随机 URL。这里的想法是将我们内置到伪随机 URL 集中的所有随机化，让爬虫随机点击链接来生成真正随机的 URL 集。爬虫会从我们的伪随机爬行集中选择一个随机链接，然后随机开始点击链接，每次有 10% 的机会停止，有 90% 的机会继续。无论爬虫到达何处，最终 URL 都会添加到我们的随机 URL 列表中。这是我们用来运行指标的最后一组 URL。我们每月通过此过程生成约 140,000 个唯一 URL，以生成我们的测试数据集。

唷，现在怎么办？定义矩阵
一旦我们有了一组随机的 URL，我们就可以真正开始比较链接索引并测量它们的质量、数量和速度。幸运的是，在我追求“正确”的过程中，Moz 慷慨地为我提供了对竞争 API 的付费访问权限。我们一开始测试了 Moz、Majestic、Ahrefs 和 SEMRush，但最终在与 Majestic 合作后放弃了 SEMRush。

那么，既然我们有了网络的随机样本，我们可以回答哪些问题呢？这正是我在电子邮件中发送给 Moz 链接项目负责人的愿望清单。

尺寸：
与竞争对手相比，随机选择的 URL 出现在我们的索引中的概率是多少？
与竞争对手相比，随机选择的域出现在我们的索引中的概率是多少？
该索引报告某个 URL 的反向链接数量最多的概率是多少？
URL 向索引报告最大数量的根链接域的概率是多少？
该索引报告某个域的最大反向链接数量的概率是多少？

Discuss Data

在每个域上选择伪随机起点

在每个域上选择伪随机起点