2022年07月29日更新 人工智能研究人员解决联邦学习长期存在的数据异质性问题

杭雯磊
导读 北卡罗来纳州立大学的研究人员开发了一种新的联邦学习方法,使他们能够更快、更准确地开发准确的人工智能(AI)模型。这项工作的重点是联邦

北卡罗来纳州立大学的研究人员开发了一种新的联邦学习方法,使他们能够更快、更准确地开发准确的人工智能(AI)模型。这项工作的重点是联邦学习中一个长期存在的问题,当用于训练AI的各种数据集存在显着异质性时,就会出现这种问题。

联邦学习是一种人工智能训练技术,它允许人工智能系统通过利用多组数据来提高其性能,而不会损害数据的隐私性。例如,联邦学习可用于利用来自多家医院的特权患者数据,以改进诊断AI工具,而医院无需访问彼此患者的数据。

联邦学习是一种涉及多个设备的机器学习形式,称为客户端。客户端和集中式服务器都从旨在解决特定问题的基本模型开始。从这个起点开始,每个客户端使用自己的数据训练其本地模型,修改模型以提高其性能。然后客户端将这些“更新”发送到服务器。集中式服务器利用这些更新来创建一个混合模型,目标是让混合模型的性能优于任何单独的客户端。然后服务器将此混合模型发送回每个客户端。重复此过程,直到系统性能得到优化或达到商定的准确度。

“但是,有时客户个人数据的性质会导致本地模型发生变化,这些模型仅适用于客户自己的数据,但在应用于其他数据集时效果不佳,”通讯作者Chau-WaiWong说新技术论文的作者和北卡罗来纳州立大学电气和计算机工程助理教授。“换句话说,如果客户端的数据有足够的异质性,有时客户端会以一种实际上损害混合模型性能的方式修改其本地模型。”

“我们的新方法使我们能够比以前的技术更有效地解决异质性问题,同时仍然保护隐私,”该论文的第一作者和博士凯悦说。北卡罗来纳州的学生。“此外,如果客户端数据存在足够的异质性,则实际上不可能使用传统的联邦学习方法开发出准确的模型。但我们的新方法使我们能够开发出准确的模型,而不管数据的异质性如何。”

在新方法中,客户端发送到集中式服务器的更新以保护数据隐私的方式重新格式化,但为服务器提供了有关与模型性能相关的数据特征的更多信息。具体来说,客户端以雅可比矩阵的形式向服务器发送信息。然后,服务器将这些矩阵到生成改进模型的算法中。然后服务器将新模型分发给客户端。然后重复此过程,每次迭代都会导致模型更新,从而提高系统性能。

“中心思想之一是避免在每个客户端迭代地训练本地模型,而是让服务器直接根据客户端的雅可比矩阵生成改进的混合模型,”该论文的合著者、前研究生RyanPilgrim说北卡罗来纳州的学生。“这样做,该算法不仅可以回避多轮通信,还可以防止不同的本地更新降低模型的性能。”

研究人员针对用于评估联邦学习性能的行业标准数据集测试了他们的新方法,发现新技术能够匹配或超过联邦平均的准确性——这是联邦学习的基准。更重要的是,新方法能够匹配该标准,同时将服务器和客户端之间的通信轮数减少一个数量级。

“例如,联邦平均需要284轮通信才能在其中一个测试数据集中达到85%的准确度,”Yue说。“我们能够在26轮中达到85%的准确率。”

“这是一种新的、替代联合学习的方法,使这项探索性工作成为可能,”Wong说。“我们正在有效地重新利用分析工具来解决实际问题。我们期待从私营部门和更广泛的联邦学习研究社区获得关于其潜力的反馈。”

这篇名为“NeuralTangentKernelEmpoweredFederatedLearning”的论文将在7月17日至23日在马里兰州巴尔的摩举行的第39届机器学习国际会议(ICML)上发表。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!