在本周的 SC21 超级计算大会上,Xilinx 推出了其 Alveo U55C 数据中心加速卡和一种新的基于标准、API 驱动的集群解决方案,用于大规模部署 FPGA。该公司表示,通过启用数百个 Alveo 卡的集群并实现应用程序和集群的高级可编程性,这款新卡使扩展 Alveo 计算能力以比以前更容易、更高效地定位高性能计算 (HPC) 工作负载。 赛灵思表示,Alveo U55C 卡专为 HPC 和大数据工作负载而设计,提供 Alveo 加速器产品组合中最高的计算密度和 HBM(高带宽内存)容量。结合全新的基于 Xilinx RoCE v2 的集群解决方案,拥有大规模计算工作负载的广泛客户现在可以使用他们现有的数据中心基础设施和网络实施强大的基于 FPGA 的 HPC 集群。在架构上,基于 FPGA 的加速器声称能够以最低成本为许多计算密集型工作负载提供最高性能。它正在引入一种基于标准的方法,可以使用客户现有的基础设施和网络创建 Alveo HPC 集群。 该公司表示,这是在整个数据中心更广泛地采用 Alveo 和自适应计算的重大飞跃。 Xilinx 数据中心 HPC 产品经理 Nathan Chang 在接受 embedded.com 采访时表示:“我们开始看到计算并不总是瓶颈。实际上,通常它往往是内存带宽。越来越多的计算问题受到内存带宽的限制。因此,我们将卡缩小到一个插槽,并将该卡上的 HBM 加倍。但更重要的是,我们提供了跨这些卡扩展的能力,能够创建包含数百张卡的大型集群并针对这些卡上的所有 HBM。” 他继续说:“解锁 Alveo 卡集群的带宽一直是我们社区的一项重大努力。开发人员必须创建团队,然后创建自己的集群设计以满足他们的需求。现在,我们推出了基于开放标准的集群包——这意味着我们将利用 RoCE v2 和数据中心桥接,通过以太网,每张卡中的带宽为 200 Gbps。” “这意味着在数据中心的现有基础设施中,您将能够将这些卡放在现有服务器中,能够在现有以太网网络上利用它们,并在性能和延迟方面与 InfiniBand 竞争。” “另一个关键点是,我们不仅为更大的工作量创造空间,而且还确保开发社区更容易访问 Vitis。您不再需要了解 RTL 或 Verilog。您可以使用 C、C++ 和 Python 等现有高级语言对 Alveo 卡和目标 Alveo 板进行编程。” 适用于 HPC 和大数据的 Alveo U55C 功能
Alveo U55C 卡结合了当今 HPC 工作负载所需的许多关键功能。据赛灵思称,它提供了更高的数据流水线并行性、卓越的内存管理、优化的流水线数据移动,以及 Alveo 产品组合中最高的每瓦性能。该卡是单插槽全高、半长 (FHHL) 外形尺寸,最大功率仅为 150W。与其前身双槽 Alveo U280 卡相比,它提供了卓越的计算密度,并将 HBM​​2 翻倍至 16GB。因此,新的 U55C 以更小的外形尺寸提供更多计算,用于创建基于 Alveo 加速器的密集集群。这是针对需要横向扩展的高密度流数据、高 IO 数学和大型计算问题,例如大数据分析和 AI 应用程序。 利用 RoCE v2 和数据中心桥接以及 200 Gbps 带宽,API 驱动的集群解决方案使 Alveo 网络能够在性能和延迟方面与 InfiniBand 网络竞争,并且没有供应商锁定。MPI 集成允许 HPC 开发人员从 Xilinx Vitis 统一软件平台横向扩展 Alveo 数据流水线。该公司表示,利用现有的开放标准和框架,现在可以在数百个 Alveo 卡上进行横向扩展,而不管服务器平台和网络基础设施如何,以及共享工作负载和内存。 软件开发人员和数据科学家可以通过使用 Vitis 平台的应用程序和集群的高级可编程性来获得 Alveo 和自适应计算的优势。赛灵思表示,它已在 Vitis 开发平台和工具流上进行了大量投资,以使没有硬件专业知识的软件开发人员和数据科学家更容易使用自适应计算。支持 Pytorch 和 Tensorflow 等主要 AI 框架,以及 C、C++ 和 Python 等高级编程语言,允许开发人员使用特定 API 和库构建领域解决方案,或利用 Xilinx 软件开发套件,轻松加速关键 HPC现有数据中心内的工作负载。 谁在用卡?
Chang 表示,该公司一直在与多家组织合作,使用 U55C 卡进行概念验证设计。 其中之一是澳大利亚国家研究机构 CSIRO 以及世界上最大的射电天文天线阵列,他们使用 U55C 而不是 GPU,因为 Alveo 卡支持单插槽卡并且不需要 NIC(网络接口卡)。CSIRO 正在使用 Alveo U55C 卡在平方公里阵列射电望远镜中进行信号处理。将 Alveo 卡部署为具有 HBM 的网络连接加速器,可在 HPC 信号处理集群中实现大规模吞吐量。基于 Alveo 加速器的集群使 CSIRO 能够实时处理聚合、过滤、准备和处理来自 131,000 个天线的数据的大规模计算任务。信号处理集群中 460Gbps 的 HBM2 带宽由 420 个 Alveo U55C 卡提供服务,这些卡通过支持 P4 的 100Gbps 交换机完全联网在一起。Alveo U55C 集群以 15Tb/s 的总吞吐量提供处理性能,并以紧凑的电源和具有成本效益的占用空间。CSIRO 现在正在完成一个示例 Alveo 参考设计,以帮助其他射电天文学或相邻行业取得同样的成功。
另一个用例示例是 Ansys LS-DYNA 碰撞仿真软件,世界上几乎所有汽车公司都在使用该软件。安全和结构系统的设计取决于模型的性能,因为它们通过计算机辅助设计有限元方法 (FEM) 模拟降低了物理碰撞测试的成本。FEM 求解器是驱动具有数亿自由度模拟的主要算法,这些庞大的算法可以分解为更基本的求解器,如 PCG、稀疏矩阵、ICCG。通过使用超并行数据流水线在许多 Alveo 卡上进行横向扩展,与 x86 CPU 相比,LS-DYNA 可以将性能提高 5 倍以上。这导致 Alveo 管道中每个时钟周期的工作量增加,LS-DYNA 客户受益于改变游戏规则的模拟时间。“本着不断创新的精神,我们很高兴与赛灵思合作,在我们的 LS-DYNA 仿真应用程序中显着加速有限元求解器,它可以代表隐式力学计算工作量的 90%,”Wim Slagter 说,Ansys 的战略合作伙伴总监。“我们期待赛灵思加速帮助我们完成支持创新者设计未来的使命。” 赛灵思引用了第三个例子,TigerGraph 是领先的图形分析平台提供商。该公司正在使用多个 Alveo U55C 卡来集群和加速驱动基于图的推荐和集群引擎的两种最多产的算法。图数据库是数据科学家的颠覆性平台。图表从孤岛中获取数据,并将重点放在数据之间的关系上。图的下一个前沿是实时找到这些答案。Alveo U55C 将推荐引擎的查询时间和预测时间从几分钟缩短到几毫秒。通过利用多个 U55C 卡来扩展分析,与基于 CPU 的集群相比,卓越的计算能力和内存带宽将图形查询速度提高了 45 倍。分数的质量也提高了 35%,
Alveo U55C 卡目前可在 Xilinx 网站上以及通过 Xilinx 授权经销商获得。它还可以通过基于公共云的 FPGA 即服务提供商进行评估,以及选择托管数据中心进行私人预览。集群现在可用于私人预览,预计在明年第二季度全面上市。 相关实战:https://www.99qibang.cn/information/20220110182344.html https://www.99qibang.cn/information/20220110182613.html https://www.99qibang.cn/information/20220110182804.html https://www.99qibang.cn/information/20220110182705.html https://www.99qibang.cn/information/20220110183202.html https://www.99qibang.cn/information/20220110183315.html
|