随着人工智能革命席卷而来,抓住生成式AI机会的英伟达全面出击,为大小挑战者设下新标杆。3月19日,英伟达在2024年GTC大会上发布Hopper架构芯片的继任者 —— 全新Blackwell架构芯片平台,包括AWS、微软和谷歌在内的公司计划将其用于生成人工智能和其他现代计算任务。 本文引用地址:http://www.eepw.com.cn/article/202403/456644.htmGPU的形态已彻底改变 新GPU架构“Blackwell”得名于美国数学家David Harold Blackwell,与英伟达Grace CPU、新一代网络芯片等产品一起,面向生成式AI共同组成完整解决方案。黄仁勋称Blackwell不只是芯片,而是一个全新的平台。这意味着英伟达从芯片走向平台的转变。 基于该架构的GPU芯片B200采用台积电4NP制造工艺,密度方面应该不会有明显的提升,而之前的H100基本上已经是一个完整的掩模版,芯片尺寸为814mm²,而理论最大值为858mm²。为此B200使用了两个全尺寸掩模版制造的芯片,每个对应四个HBM3E堆栈,每个堆栈的接口容量为24GB、带宽为1TB/s。相比之下,每个H100芯片对应六个HBM3接口,意味着B200每个芯片可以减少内存控制器所需要的芯片面积,从而将更多的晶体管用于计算单元。 B200并不是传统意义上的单一GPU,相反它由两个紧密耦合的芯片组成,通过10TB/s NV-HBI(高带宽接口)进行连接,以确保它们能够作为单个完全一致的芯片正常运行。B200总晶体管数量达到2080亿个、内存带宽达到8TB/s、拥有20 petaflops的AI性能,英伟达称其可实现在十万亿级参数模型上的AI训练和实时LLM(大语言模型)推理。 GPU的形态已彻底改变。需要更大的GPU,如果不能更大,就把更多GPU组合在一起,变成更大的虚拟GPU。Blackwell新架构硬件产品线都围绕这一句话展开,通过芯片与芯片间的连接技术,一步步构建出大型AI超算集群。
两个B200 GPU与Grace CPU结合就成为GB200超级芯片,通过900GB/s的超低功耗NVLink芯片间互连技术连接在一起,将能够使大模型推理工作负载的性能提升30倍,同时提高效率。相比于H100,它可以将成本和能源消耗降至1/25,而在参数为1750亿的GPT-3 LLM基准测试中,GB200的性能达到了H100的7倍,而训练速度则达到了H100的4倍。GB200将于今年晚些时候在NVIDIA DGX Cloud上以及通过AWS、谷歌云和Oracle云基础设施实例提供。 在多卡互联方面,英伟达的NVLink和NVSwitch技术是其护城河。NVLINK是一种点对点的高速互连技术,可以将多个GPU直接连接起来,第五代NVLink在多达576个GPU之间可提供1.8TB/s的每GPU双向通信吞吐量;同时NVLink引入了统一内存的概念,支持连接的GPU之间的内存池,这对于需要大型数据集的任务来说是一个至关重要的功能。而NVSwitch是一种高速交换机技术,可以将多个GPU和CPU直接连接起来,形成一个高性能计算系统。 “新一代计算单元”GB200 NVL72由此诞生,GB200 NVL72是一个全机架解决方案,有18个1U服务器,每台服务器里带有两个GB200,合计共有36个Grace CPU和72个B200,并且全部采用液冷MGX封装。黄仁勋在介绍此台机器时说道:“此时此刻,地球上也许只有三台百亿亿次浮点运算(exaflop)机器。而这是一个单一机架中的1个百亿亿次浮点运算AI系统。” 全文观看链接:https://www.eepw.com.cn/article/202403/456644.htm
|