因此,现代数据科学项目很像老式的计算机编程项目:%的时间应该花在收集适当的数据并确保其正确、可接受且公正上。
虽然 标准本身并不新鲜,但数据使用和数据标准正在发生变化,而且很复杂。公司应该 使其模型治理标准正式化 并在项目接受数据之前强制执行这些规定,因为客户数据并非不受使用限制。公司必须遵守有关客户同意和允许使用的规定;客户越来越多地拥有 被遗忘的能力,或者将其数据从未来模型中撤回。
简而言之,客户数据可能充斥着质量问题和 巴哈马电话号码数据 有偏见的结果,不能像过去几十年那样随心所欲地使用,也不能用于学术追求。企业领导者必须意识到这些重要事实,并意识到公司的 对数据和人工智能的治理非常严格。如果治理尚未建立,则需要建立。
有偏见的数据会产生有偏见的决策——也许最好将其解释为“产生同样的垃圾”。组织和数据科学家必须认识到,如果他们建立一个模型来精确复制偏见,即使是无意的,他们的工作成果也会继续以自动化和冷酷的方式传播偏见。
例如,有一些有用的指导原则 帮助合规官避免 偏见和其他不道德的人工智能使用。由于偏见根植于数据,最好的默认做法是将所有数据视为肮脏、可疑和隐藏多重偏见地雷的负担。数据科学家和组织的工作是证明为什么他们对特定数据字段的使用以及利用它们的算法是可以接受的。