微软的ZeRO-2和深度速度训练神经网络拥有多达1700亿个参数

孟昭泽
导读 今天,微软升级了DeepSpeed库,用ZeRO-2训练大型神经网络。微软表示,内存优化技术可以用1700亿个参数训练机器学习模型。就后台而言,Nvidi

今天,微软升级了DeepSpeed库,用ZeRO-2训练大型神经网络。微软表示,内存优化技术可以用1700亿个参数训练机器学习模型。就后台而言,Nvidia庞大的威震天语言模型是当今世界上最大的语言模型之一,有110亿个参数。

今天的声明是在2月份DeepSpeed库开源发布之后发布的,该库用于创建图灵-NLG。图灵-NLG拥有170亿个参数,是世界上已知的最大的语言模型。微软在二月份推出了零冗余优化器和DeepSpeed。

ZeRO通过减少数据并行中的内存冗余来实现其结果,这是将大型模型放入内存的另一种技术。零-1包含模型状态内存的一些优化,而零-2提供激活内存和片段内存的优化。

Deep设计用于跨多个服务器的分布式模型训练,但ZeRO-2也改进了单个GPU上的训练模型。据悉,谷歌的BERT等训练模型改进30%。

更多细节将在微软首席技术官凯文斯科特周三发表的主题演讲中公布。

这一消息是在微软全数字建筑开发者大会开幕时发布的,会上公布了多项人工智能发展成果,包括机器学习中差分隐私的WhiteNoise工具包,以及人工智能的工业应用盆栽项目。

上周,英伟达CEO黄发布了Ampere GPU架构和A100 GPU。新的GPU芯片——以及多模态模型和大规模推荐系统3354的趋势将在未来几年内导致更大的机器学习模型。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!