成对方法意味着不是检查完整的数据集,而是单独研究每个SERP:我们比较每个特征的所有可能的 URL 对(页面上的第一个结果与第五个结果、第七个结果与第二个结果等)。每对都分配有一个绝对值集合,其中每个值都是一个商(第一个 URL 的特征值除以第二个 URL 的特征值)。此外,每对还分配一个目标值,该值指示第一个 URL 在 SERP 上的位置是高于第二个 URL(目标值 = 1)还是低于第二个 URL(目标值 = 0)。
程序结果:
每对 URL 都会接收每个特征的商集合以及 0 或 1 的目标值。这些数字将用作决策树的训练数据集。
我们现在能够对某些特征值进行统计观察,并且它们的组合往往会导致 URL 在 SERP 上排名更高。这使我们能够假设某些特征的重要性,并预测某些特征值集合是否会产生更好的排名。
我们在上一步中获得的数据收集是绝对通用的,可以与任何机器学习算法一起使用。我们最喜欢的是决策树森林。
在树木能够做出合理的决策之前,它们需要进行训练,这就是监督机器学习的用西班牙邮件列表武之地。为了确保训练正确完成并根据原始数据做出公正的决策,我们使用聚类和随机子空间方法。
树木
装袋是通过有放回抽样来创建训练数据集合的过程。假设我们有 X 行数据。按照聚类原则,我们将为每棵决策树创建一个训练数据集,该数据集具有相同的行数 X。但是,该采样集将被随机填充并替换:因此它将仅包含原始 X 行的大约三分之二,并且会有重复的值。大约三分之一的原始值将保持不变,并在训练完成后使用。