现在,机器学习系统被用来确定从股票价格到医疗诊断的一切,看他们如何决策从未如此重要。麻省理工学院的一种新方法表明,现在,机器学习系统被用来确定从股票价格到医疗诊断的一切,看它们如何做决定从未如此重要。
麻省理工学院的一种新方法表明,罪魁祸首不仅是算法本身,还有数据本身的收集方式。
“计算机科学家很快就会说,让这些系统有偏见的方法只是设计更好的算法,”第一作者陈依龄说,他是大卫桑塔格教授和麻省理工学院博士后助理弗雷德里克d约翰逊的博士生。“但算法只能和他们使用的数据一样好。我们的研究表明,你可以利用更好的数据做出更大的改变。”
通过观察具体的例子,研究人员可以找出准确性差异的潜在原因,并量化每个因素对数据的个体影响。然后,他们展示了如何改变他们收集数据的方式,以减少每种类型的偏差,同时保持相同的预测精度。
“我们将此视为一个工具箱,帮助机器学习工程师弄清楚对他们的数据提出什么问题,以便诊断他们的系统为什么做出不公平的预测,”Sontag说。
陈说,一个最大的误解是,越多的数据总是越好。获得更多的参与者并不一定有帮助,因为从同一人群中提取通常会导致同一亚人群的短缺。即使是拥有数百万张图像的流行图像数据库ImageNet,也被证明偏向于北半球。
桑塔格认为,关键是走出去,从那些代表性不足的群体中获取更多的数据。例如,该团队研究了一个收入预测系统,发现女性员工被错误地归类为低收入员工、男性员工被错误地归类为高收入员工的可能性是男性员工的两倍。他们发现,如果他们将数据集增加10倍,这些错误的发生率将减少40%。
在另一组数据中,研究人员发现,该系统预测重症监护室(ICU)死亡率的能力对亚洲患者并不准确。现有的减少歧视的方法基本上只会降低非亚裔预测的准确性,这可能会导致你谈论医疗保健时的生死问题。
陈说,他们的方法允许他们查看数据集,并确定需要多少来自不同组的参与者来提高准确度较低的组的准确度,同时仍然保持准确度较高的组的准确度。
“我们可以绘制一条轨迹曲线,看看如果我们增加超过2000人而不是2万人会发生什么,从中我们可以看出如果我们想要拥有最好的世界,数据集的大小应该是多少,”陈说。“通过这种更加细致入微的方法,医院和其他机构可以更好地进行成本效益分析,看看获得更多数据是否有用。”
你也可以试着从现有的参与者那里获取其他类型的数据。然而,如果额外的数据实际上无关紧要,它不会改善事情,例如智商研究人员的身高统计。那么问题就变成了如何确定何时以及为谁收集更多的信息。
一种方法是识别具有高精度差异的患者组。对于ICU患者,被称为主题建模的文本聚类方法表明,心脏病和癌症患者之间的准确性存在很大的种族差异。这一发现可能表明,对心脏病或癌症患者进行更多的诊断测试可以降低种族差异的准确性。
该团队将于12月在蒙特利尔举行的神经信息处理系统(NIPS)年会上发表一篇论文。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!