2022年07月31日更新 Tenstorrent推出可扩展深度学习的架构

浦芬芳
导读 计算公司Tenstorrent宣布其旗舰产品Grayskull 上市,该公司为促进可扩展深度学习的人工智能提供条件执行架构。Tenstorrent由经验丰富的

计算公司Tenstorrent宣布其旗舰产品Grayskull 上市,该公司为促进可扩展深度学习的人工智能提供条件执行架构。

Tenstorrent由经验丰富的领导者和工程师创立,致力于为领先的半导体公司提供成功,创新和复杂的解决方案,并采用了一种动态消除不必要的计算的方法,从而打破了模型大小增长与计算/内存带宽需求之间的直接联系。条件计算使模型可以适应于所呈现的确切输入,并且可以对模型进行训练,例如将NLP模型计算调整为所呈现文本的确切长度,并根据输入特征动态修剪模型的各个部分。Grayskull在当今使用最广泛的机器学习模型(例如BERT,ResNet-50等)上显着提高了基准性能,

为了使人工智能达到新的水平,机器需要超越模式识别,并进入因果学习。这样的机器学习(ML)模型需要计算基础结构,从而使它们在未来几年中可以继续以数量级增长。ML计算机可以通过两种方式实现此目标:通过减小模型大小与原始计算能力之间的依赖关系,通过条件执行和动态稀疏性处理之类的功能,以及在前所未有的水平上促进计算可伸缩性。机器学习模型的快速变化进一步要求灵活性和可编程性而不受到损害。

“过去几年的并行计算机体系结构都是关于提高TOPS,每瓦TOPS和每成本TOPS,以及良好地利用预配置TOPS的能力。随着机器学习模型的复杂性继续激增,以及改善面向TOPS的指标的能力迅速下降,不断增长的计算需求的未来自然会导致摆脱暴力计算,并实现比以往更大规模的解决方案,” Ljubisa Bajic说,Tenstorrent的创始人兼首席执行官。“ Tenstorrent的创建考虑了这一未来。今天,我们向Tenstorrent推出了第一款AI处理器Grayskull,该处理器正在向我们的主要合作伙伴提供样品,并将在2020年秋季投入生产。”

Tenstorrent架构具有一系列专有的Tensix内核,每个内核都包括一个高利用率数据包处理器,一个功能强大的可编程SIMD和密集的数学计算模块,以及五个高效而灵活的单期RISC内核。Tensix内核阵列与一个定制的双2D环形片上网络(NoC)缝合在一起,这带来了前所未有的多播灵活性,并且最小化了用于计划粗粒度数据传输的软件负担。

灵活的并行化和完整的可编程性可实现运行时适应和工作负载平衡,从而有助于节省功耗并缩短运行时间,从而显着节省成本。

Grayskull集成了120个Tensix内核和120MB本地SRAM,有助于更快地执行AI工作负载。该AI处理器还提供了八个通道的LPDDR4,支持高达16GB的外部DRAM和16通道的PCI-E Gen4。在75W总线供电的PCIE卡所需的芯片热设计功率设定点,Grayskull达到了368TOPS,并且使用BERT-Base为SQuAD 1.1数据集提供条件执行的支持,高达23,345句子/秒,使其性能比当今的领先解决方案高26倍。

专注于推理市场的Grayskull已可提供样品数量。目标市场包括数据中心,公共/私有云服务器,本地服务器,边缘服务器,汽车等。

Tenstorrent首席执行官Bajic将在虚拟的Linley Spring处理器大会上展示有关其架构和Grayskull的更多详细信息。他的演讲题目为“ 神经元,与非门或网络:选择AI计算基板” 将在4月9日上午9点举行的虚拟会议中现场直播,随后在上午10点进行问答小组讨论。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!