打造IC人才
科技生态圈

GPU性能提升10倍!计算光刻提速40倍!英伟达王炸回归

发布时间:2023-03-24

来源:IC修真院

两个月前,AMD狂堆1460亿晶体管祭出史上“最复杂”芯片,英特尔王者归来推出“算力神器”第四代至强处理器。

另一位巨头也并没有闲着。众所周知,从去年底开始ChatGPT系列产品就在全球范围掀起了AI浪潮,至今为止GPT-4、文心一言等语言模型产品仍是热度不断。

这背后的大赢家除了Open AI,就非英伟达莫属了——唯一可以实际处理ChatGPT的GPU就是英伟达HGX A100,英伟达的股价也因此涨超80%+

当所有人都以为英伟达要“深藏功与名”时,3月21日晚召开的英伟达GTC开发者大会上,身穿经典款皮衣的老黄带着王炸产品回归了。


图片

计算光刻提速40倍

在芯片制造的光刻环节,包括光掩模制作和图案投影两个阶段。光掩模即芯片中的模板光线被阻挡或者穿过掩模到达晶圆上,最终形成图案。


图片


目前全球最先进的光刻系统就是来自ASML的极紫外线光刻机,每个系统的价值超过2.5亿美元。

计算光刻是芯片设计和制造领域里最大的计算工作负载,每年消耗数百亿CPU小时,需要大型的数据中心做到24h*7d全天候的运行。

英伟达、台积电、ASML、Synopsys这些细分领域的TOP企业,密切合作四年,然后向IC行业扔出了一枚技术“核弹”——计算光刻库cuLitho

据老黄介绍:“英伟达H100需要89块掩膜版,当前在CPU上运行时处理单个掩膜版的时间需要2周时间,如果在CPU上运行cuLitho,只需要8个小时就可以处理完一个掩膜版。台积电可以通过在500个DGX H100系统上使用cuLitho加速,将功率从35MW降至5MW,从而代替用于计算光刻的4万台CPU服务器。”

cuLitho可以将计算光刻加速40倍以上,晶圆厂就能大幅缩短原型周期时间,好处是能够提高产量,另一方面还可以推进2nm及以下制程的研发进度。

ChateGPT专用GPU:提速10倍

在芯片方面,英伟达也展现了强劲的实力。

这次推出了全新GPU推理平台:L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超级芯片。分别用于加速AI视频、图像生成、大型语言模型部署和推荐系统,为AIGC提供专用算力支持。


图片


L4是一款加速AI视频的通用GPU,英伟达主要对视频解码和转发、视频内容审核、视频通话功能等方面做了优化。一台8-GPU L4服务器将取代一百多台用于处理AI视频的双插槽CPU服务器。

L40主要应用于AI图像生成,在性能方面,L40是英伟达目前最受欢迎的云推理GPU T4的10倍。

H100 NVL是一款针对ChatGPT等大型语言规模推理的GPU,配备94GB HBM3显存。当前唯一可以实际处理ChatGPT的GPU是英伟达HGX A100。与前者相比,现在一台搭载四对H100和双NVLINK的标准服务器速度能快10倍,可以将大语言模型的处理成本降低一个数量级。

接下来单独说说Grace Hopper。

英伟达“新超级芯片”

Grace Hopper被老黄称作“英伟达的新超级芯片”,它也绝对可以算得上是本次GTC大会上的另一枚王炸产品。

这款芯片模组连接了Grace CPU和Hopper GPU。

Grace CPU是一款新发布的CPU架构,包含72个Arm核心,由超高速片内可扩展的、缓存一致的网络连接,可以提供3.2TB/s的截面带宽。速度比最新一代x86 CPU的平均速度快1.3倍,而在数据处理中则快1.2倍,但功耗只有x86的60%。

Hopper GPU是一款已经面世的高性能计算GPU架构,采用先进的台积电 4N 工艺制造,拥有超过 800 亿个晶体管,主要用于加速 AI 模型训练。

Grace Hopper将CPU连接GPU的操作同样实现了1+1>2的效果。借助Grace-Hopper,Grace可以查询嵌入表,并将结果直接传输到Hopper,速度比PCIE快7倍,非常适合处理大型数据集。

AI的“Iphone时刻”已到来

英伟达本次GTC大会和新产品几乎都围绕人工智能、云计算、加速计算等关键词展开。

英伟达的加速计算始于DGX,这是一款AI超级计算机,当初是黄仁勋亲手把全球首款DGX交给了OpenAI。在后来的发展中,DGX也逐渐成为了AI领域的必备工具。

老黄将DGX称作“大语言模型实现突破的背后引擎”,ChatGPT的表现也确实印证了这一说法。


图片


老黄本人在演讲中表示“AI的‘Iphone时刻’已经到来”。

或许我们可以理解为英伟达将开启AI时代,就像当初Iphone开启智能手机时代那样。

相关推荐:

IC设计|详解SPI通信协议

IC设计|Verilog中什么是X态传播?

从算法到RTL实现,FPGA工程师该怎么做?

推荐阅读

换一换