研究人员在处理数据方面取得了有限的成功

解婉贞
导读 人工智能系统有奇怪的记忆。机器极度依赖自己训练过的数据,所以很难删除它的一些内容。事实上,他们通常不得不用更新更小的数据集从头开始

人工智能系统有奇怪的记忆。机器极度依赖自己训练过的数据,所以很难删除它的一些内容。事实上,他们通常不得不用更新更小的数据集从头开始重新训练。

在个人可以根据欧洲的GDPR规则等隐私措施从公司数据库中删除个人数据的时代,这并不好。如何从经过训练的机器学习中删除一个人的敏感信息?《法律与政策学者》2017年的一篇研究论文提出,这甚至是不可能的。

“删除很难,因为大多数机器学习模型都是复杂的黑盒,所以不清楚数据点或数据点实际上是如何使用的,”斯坦福大学生物医学数据科学助理教授詹姆斯邹告诉。注册。

为了省略特定数据,通常需要用更新更小的数据集重新训练模型。这是一种痛苦,因为它需要金钱和时间。

这项研究由斯坦福大学博士生安东尼奥吉纳特(Antonio Ginart)领导,研究了试图从机器学习模型中删除数据的问题,并成功制作了两个“可以证明有效删除的算法”,用于从K-means聚类模型的六个不同数据集中删除数据,K-means聚类模型是一种用于开发分类器的机器学习方法。研究结果已于本周在arXiv的一份文件中发表。

诀窍是评估从训练模型中删除数据的影响。在某些情况下,它可能会导致系统性能下降。

“首先,快速检查删除数据点是否会对机器学习模型产生任何影响——有些设置没有影响,因此我们可以非常有效地执行这项检查。其次,看看要删除的数据是否只影响学习系统的一些本地组件,并且只在本地更新,”邹解释道。

在某些情况下,当数据更容易分离时,k-means聚类模型似乎是可行的。然而,对于像现代深度学习模型这样不确定的系统来说,删除数据是非常困难的。

邹表示,这并非完全不可能。“我们还没有工具,但我们希望在未来几个月内开发出这些移除工具。”

标签:

免责声明:本文由用户上传,如有侵权请联系删除!