芯片设计大大降低了光计算所需的能量

司徒震绍
导读 麻省理工学院的研究人员开发了一种新型的“光子”芯片,这种芯片利用光而不是电,并且在这个过程中消耗相对较少的能量。这种芯片处理大规模

麻省理工学院的研究人员开发了一种新型的“光子”芯片,这种芯片利用光而不是电,并且在这个过程中消耗相对较少的能量。这种芯片处理大规模神经网络的效率比现有的计算机高出数百万倍。

神经网络是一种机器学习模型,广泛应用于机器人物体识别、自然语言处理、药物开发、医学成像和无人驾驶汽车供电等任务中。一种新的光学神经网络利用光学现象来加速计算,可以比它的电子对应物运行得更快更有效。

但是随着传统和光学神经网络变得越来越复杂,它们消耗了大量的能量。为了解决这个问题,研究人员和各大科技公司——包括谷歌、IBM和特斯拉——开发了“AI加速器”的特殊芯片,可以提高训练和测试神经网络的速度和效率。

对于电气芯片,包括大部分AI加速器,都有一个理论上的最小能耗极限。最近,麻省理工学院的研究人员开始开发用于光学神经网络的光子加速器。这些芯片的执行效率更高,但它们依赖于一些巨大的光学组件,这限制了它们在相对较小的神经网络中的使用。

在《物理评论X》发表的论文中,麻省理工学院的研究人员描述了一种新的光子加速器,它使用了更紧凑的光学元件和光信号处理技术,大大降低了功耗和芯片面积。这使得芯片可以扩展成比它的对应物大几个数量级的神经网络。

神经网络在MNIST图像分类数据集上的仿真训练表明,该加速器理论上可以处理神经网络,超过传统电子加速器的能耗极限1000万倍以上,比光子加速器低1000倍。研究人员正在研究原型芯片,以通过实验证明这些结果。

电子研究实验室的博士后Ryan Hamerly说:“人们正在寻找可以计算超出能耗基本限制的技术。“光加速器很有前途.但我们的动机是建立一个可以扩展到大型神经网络的[光子加速器]。”

这些技术的实际应用包括降低数据中心的能耗。“运行大型神经网络的数据中心的需求正在增加,随着需求的增加,在计算中处理起来越来越困难,”合著者、电子研究实验室研究生亚历山大斯鲁德斯(Alexander Sludds)说。它的目标是“通过神经网络硬件满足计算需求”.来解决能耗和延迟的瓶颈问题。”

加入Sludds和Hamerly的论文有:合著者,研究生Liane Bernstein,研究生;麻省理工学院物理学教授马林索尔贾西奇;和Dirk Englund,麻省理工学院电子工程和计算机科学副教授,RLE研究员,量子光子实验室负责人。

紧凑的设计

神经网络通过许多包含互连节点(称为“神经元”)的计算层来处理数据,以在数据中找到模式。神经元接收来自其上游邻居的输入,并计算输出信号,该输出信号被发送到更下游的神经元。每个输入还被赋予一个“权重”,这个权重是基于它对所有其他输入的相对重要性。随着数据通过各层“更深入”地传播,网络逐渐了解到更复杂的信息。最后,输出层基于整个层的计算生成预测。

所有AI加速器都旨在减少神经网络中特定线性代数步骤期间处理和移动数据所需的能量,这被称为“矩阵乘法”。在那里,神经元和权重被编码到由行和列组成的独立表格中,然后组合起来计算输出。

在传统的光子加速器中,用层中每个神经元的信息编码的脉冲激光流入波导,并通过分束器。产生的光信号被馈入方形光学元件的网格,称为“马赫-曾德尔干涉仪”,该干涉仪被编程为执行矩阵乘法。用关于每个权重的信息编码的干涉仪使用信号干涉技术来处理光学信号和权重值,以计算每个神经元的输出。但是有一个缩放问题:对于每个神经元,必须有一个波导,对于每个权重,必须有一个干涉仪。因为重量与神经元的数量成正比,所以那些干涉仪占据了很大的空间。

“你很快就会意识到,输入神经元的数量永远不会超过100个左右,因为你无法在一个芯片上安装这么多组件,”哈默利说。“如果你的光子加速器不能处理每层超过100个神经元,那么很难将大型神经网络应用于这种架构。”

研究人员的芯片依赖于更紧凑和节能的“光电”方案,该方案使用光信号对数据进行编码,但使用“平衡零差检测”进行矩阵乘法。这是一种在计算两个光学信号的振幅(波高)的乘积之后产生可测量的电信号的技术。

用训练网络所需的关于每个神经网络层的输入和输出神经元的信息编码的光脉冲流经单个信道。由矩阵乘法表中的整行权重信息编码的单脉冲流经单通道。携带神经元和重量数据的光信号扇出到零差光电探测器的栅极。光电探测器利用信号的幅度来计算每个神经元的输出值。每个检测器将每个神经元的电输出信号馈入调制器,调制器将信号转换回光脉冲。这个光信号成为下一层的输入,等等。

设计每个输入和输出

神经元只需要一个通道,并且只有与神经元一样多的零差光电探测器,而不是重量。因为神经元总是远远少于重量,这节省了大量空间,因此芯片能够扩展到每层超过一百万个神经元的神经网络。

找到最佳点

对于光子加速器,信号中存在不可避免的噪声。馈入芯片的光越多,噪声越小,精度越高 - 但效率却相当低。较少的输入光会提高效率,但会对神经网络的性能产生负面影响。但伯恩斯坦说,这里有一个“最佳点”,它使用最小的光功率,同时保持准确性。

AI加速器的最佳位置是以执行单个两个数乘法运算所需的焦耳量来衡量的 - 例如在矩阵乘法期间。现在,传统的加速器以皮焦耳或千万亿焦耳来衡量。光子加速器以attojoules测量,效率高出一百万倍。

在他们的模拟中,研究人员发现他们的光子加速器可以以低于焦耳的效率运行。“在失去准确性之前,你可以发送一些最小的光功率。我们的芯片的基本限制比传统的加速器低得多......并且低于其他光子加速器,“伯恩斯坦说。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!

上一篇如何在macOS Mojave和Catalina中使用标签

下一篇用于电偶极矩(EDM)搜索的氡低于镭