机器学习供应商的目标是建立数据护城河(其他人没有的专有数据),这样他们就可以出售其他人无法获得的机器学习功能。这吸引了风险投资家,因为这些模型无法从每个人都可以访问的公共数据中创建。私有企业数据构建了数据护城河,这就是保护数据如此昂贵的原因。
第二个动机是创建 ML 产品,而不是服务。ML 技术需要 埃及电话号码数据 大量时间和精力来构建准确的模型;供应商不想为每个客户从头开始。例如,如果他们花费长达 18 个月的时间为企业客户设计模型,那么他们就是服务公司——这是有问题的,因为风险投资家更喜欢产品公司,因为它们具有更高的利润率、倍数和业务估值。转售企业数据模型会创建 ML 产品,而不是服务。
由于机器学习公司正在收集尽可能多的独特企业数据以取得成功,因此首席信息官必须采取措施保护他们的数据资产。否则,他们就处于一个不利的境地,允许机器学习公司获取他们的数据,用这些数据训练他们的算法,然后再卖给他们和他们的竞争对手。
问题在于,数据护城河很少存在于专有企业数据之外,因为它们比人们想象的更难获得。Andreessen Horowitz 详细介绍了 这里的艰辛。因此,建立数据护城河的主要方式是使用专有企业数据。例如,保险公司可能会使用计算机视觉来加速损害评估和修复。