评论
分享

英伟达发布GB200计算卡:2080亿个晶体管,AI性能提升5倍

这个是认证

热点科技

2024-03-19 10:44 上海

73522 0 0

在这个星球上,英伟达毫无疑问是如今的 AI 之王,其推出的 H100 已经被众多科技企业抢购,而英伟达的营收和利润也是节节攀升。但是在这个算力决定效率的今天,英伟达 H100 计算卡的算力还远远不够,尤其是像 Sora 这样的文生视频的模型出来,更是对计算卡的算力提出了更高的要求,于是英伟达也适时地推出了下一代 GPU,在 AI 性能上有着突飞猛进的进步,可以说拉了竞争对手整整一代。

英伟达在今天凌晨举办 GTC 技术大会,在大会上,  英伟达正式宣布了 Blackwell 架构,同时也表示 B200 芯片将会是首款基于 Blackwell 打造的 GPU。首先是制程架构,没想到已经不差钱的英伟达并没有采用台积电的 3nm 制程架构,而是继续采用 4nm 制程,而 B200 则是基于两颗芯片打造而成,总共拥有 2080 亿个晶体管,借助 NVlink 5.0 进行数据传输,而 NVLink 5.0 在 B200 上可以实现 1.8TB/s 的数据传输,是上代的两倍,而 NVLink 5.0 的理论速度可以达到 10TB/s。

毫无疑问 B200 芯片最大的特点就在于其强大的 AI 算力,老黄表示 B200 芯片的 AI 算力达到了 20PFlops,远超现在的 H100 的 4PFLOPs,相当于是现在的 5 倍性能,从而可以让 AI 厂商训练更加复杂的模型,但是算传统的算力,B200 中单个芯片比 H100 高出 25%,也就是说传统算力 B200 是 H100 的 2.5 倍。

此外老黄还发布了基于两颗 B200 芯片以及 Grace CPU 打造的 AI 超算 GB200,训练与推理 LLM 的性能比上代提升了 30 倍,简直就是黑科技。英伟达表示按照 AI 厂商训练一个 1.8 万亿参数的大语言模型计算,原本需要 8000 块 Hooper GPU,同时功耗达到了 15 兆瓦,而现在厂商仅需 2000 块 GPU,功耗大约是 4 兆瓦,而在 GPT-3 的训练中,GB200 的训练速度是 H100 的 4 倍,而推理速度则是 H100 的 7 倍。

这还只是 AI 超算的一小部分,英伟达针对企业以及高性能计算用户推出了 GB200 NVL72 服务器,最多拥有 36 个 CPU 和 72 个 Blackwell GPU,以及专门定制的水冷解决方案,最高提供 720PFLOPs 的 AI 训练性能以及 1440FLOPs 的推理性能,此外一个机架上还包括 18 个 GB200 芯片以及 9 个 NVLink 交换机,最高实现 27 万亿个参数模型的训练,要知道现在的 GPT-4 模型训练参数大约为 1.7 万亿个,未来将会为 AI 带来更大的可能。

当然 GB200 NVL72 服务器并不是 Blackwell 的极限,英伟达还将推出 DGX GB200 这样的服务器集群,共有八个 GB200 NVL72 服务器,拥有 288 个 CPU,576 个 GPU,内存容量达到了 240TB,FP4 算力更是达到了 11.5EFLOPs,实在是太过于恐怖,甚至英伟达还表示如果你觉得算力还不够,未来英伟达 DGX 还可以进行不断地扩展,借助 Quantum-X800 InfiniBand 以太网实现数万颗 GPU 的互联互通,让 AI 训练性能达到前所未有的高度。

目前包括微软、谷歌、亚马逊已经表示将大量采购英伟达的新一代 GB200 服务器用于 AI 训练。目前英伟达还没有公布 GB200 的具体价格,不过很有可能价格达到了十几万,而且现在这种 AI 神器完全就是买方市场,供不应求,看起来英伟达的营收还将在 2024 年创下新高,毕竟在 AI 领域,老黄的领先程度实在是太大了。

# 英伟达
# 计算卡
# AI
本文为凯迪网自媒体“凯迪号”作者上传发布,代表其个人观点与立场,凯迪网仅提供信息发布与储存服务。文章内容之真实性、准确性由用户自行辨别,凯迪网有权利对涉嫌违反相关法律、法规内容进行相应处置。
举报
投喂支持
点赞
发表评论
请先 注册 / 登录后参与评论
推荐阅读