2022年07月30日更新 AI计算:混合加速器平台的统一硬件标准

雷淑成
导读 如今,人们只需要打开一台电视就可以将商业广告泛滥成灾,吹捧AI的好处和潜力。不久前几乎无法预见的应用程序现在正变得司空见惯,并且展

如今,人们只需要打开一台电视就可以将商业广告泛滥成灾,吹捧AI的好处和潜力。不久前几乎无法预见的应用程序现在正变得司空见惯,并且展望是AI将会飞跃发展。但是要实现AI的承诺,就需要能够提供高性能,鲁棒性和可扩展性的计算平台,同时还要拥抱开放性,以实现互操作性并更快,更经济地响应市场需求。

开放计算项目(OCP)帮助确保互操作性并帮助制造商满足对具有增强功能的AI系统的需求,吸引了众多致力于通过利用开放规范来推进AI计算技术的合作伙伴-其最新项目称为Open Accelerator基础架构(OAI)。该组织借鉴了先前开放式硬件和软件项目的经验,拥有来自整个计算生态系统的参与者,最近的工作成功地集中在推进加速器技术上,从而为推进AI计算平台提供了更为优雅,精简和可访问的开放规范。

最近与OCP和百度领导人举行的圆桌讨论涉及对OAI的发展和价值主张的探索,并得出了一些有趣的结论。

Open Compute Foundation社区总监Archna Haylock表示:“如今的公司面临着众多挑战,无论是数据中心基础架构,硬件加速还是从设施到机架再到节点的硬件管理。OCP带来的是一个协作环境,以应对这些挑战,并找到一种通用的解决方案,该解决方案可以全面工作,并提供规模经济以实现更高的效率和成本节省。”

OAI的主要目标是简化加速器模块的设计。由此产生的规范是一种技术解决方案,制造商可以设计自己的产品,而不必从头开始。与其他开源软件(例如Hadoop,GFS,Linux等)一样,用户可以免费下载代码并继续进行单独的开发工作。

实际上,该规范促进了诸如ASIC,GPU和FPGA等不同加速器技术的融合,克服了不兼容问题,并使这些技术能够在统一的硬件标准下执行。这样,用户可以自由更换不同的芯片,为制造商带来更多选择,并简化了加速器行业的供应方。OAI的关键技术优势是:

全面的兼容性,支持当前的AI加速器,例如FPGA,GPU和ASIC,以及下一代的异构技术。

支持12V和54V电源。12V电源的最大功率为300W,54V电源的最大功率为450W-500W。

支持四种互连拓扑,包括HCM(用于8端口和6端口OAM),FC,FC / HCM和4D Hypercube组合。

受益于该规范开发的首批产品之一是百度X-MAN 4.0,这是与浪潮共同开发的系统。OAI规范的演变始于OpenAPI模型规范,并得到了Facebook,Microsoft和百度的贡献。从那时起,很明显,有必要将规范扩展到可以使整个机架和系统以更高的互操作性运行的基础架构。在OCP的框架下,OAI小组致力于如何最好地支持多样化的加速器。结果,在开放的生态系统中为制造商提供了更多选择,最终将为AI应用程序的开发人员和最终用户带来好处。

百度AI系统设计师Richard Ding也表示:“ OCP是一个非常好的平台,供人们,用户和系统集成商以及芯片供应商一起使用。对于百度而言,OCP是一个平台,我们可以在该平台上更好地确定我们的要求,发现我们如何与合作伙伴,甚至有时与竞争对手合作,并定义一种可以使整个生态系统受益的标准。”

OAI子小组的工作范围包括定义物理模块,这些模块包括逻辑方面,例如电气,机械,热,管理,硬件安全性,物理可维护性等,以产生与传统现有操作系统兼容的解决方案,从而允许创建运行异构加速器应用程序的框架。展望未来,业界日益达成共识,通过鼓励采用该规范并进行进一步的实际应用测试,可以通过标准化来实现AI生态系统的持续进步。

结论:

OAI项目围绕设计模块化架构的概念而构建,该架构可支持不同的加速器和多系统放大,从而非常轻松地互连通信。未来的任务是在高性能计算生态系统以及垂直市场中促进其应用并获得业界的更多支持,以实现更大的规模。随着该标准变得越来越具有实际意义,其实际应用可以测试该规范的优缺点,从而可以升级该标准的技术,以满足基于AI应用程序的实际计算场景。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!