昨日晚间,玩家 @deedydas 在社交媒体平台爆料了深度求索即将发布的下一代 AI 大模型 DeepSeek-R2 的参数信息。
根据爆料信息,DeepSeek-R2 大模型将会采用一种更先进的混合专家模型(MoE),结合了更加智能的门控网络层(Gating Network),以优化高负载推理任务的性能。在 MoE 架构的加持下,DeepSeek-R2 的模型总参数量预计将达到 1.2 万亿,较之 DeepSeek-R1(6710 亿参数)提升约 1 倍。从规模上来看,DeepSeek-R2 与 ChatGPT 的 GPT-4 Turbo 以及谷歌的 Gemini 2.0 Pro 相当。
在硬件平台方面,DeepSeek-R2 实现了基于华为昇腾 910B(Ascend 910B)芯片集群平台的训练方案,在 FP16 精度下实现了 512 PetaFLOPS 的计算性能,芯片资源利用率达到 82%。根据华为实验室的数据,这一算力大约是英伟达上一代 A100 训练集群的 91%。
可能得益于华为昇腾 910B 训练集群,DeepSeek-R2 的单位推理成本较之 GPT-4 下降了 97.4%,DeepSeek-R2 的成本约为 0.07 美元 / 百万 token,而 GPT-4 则高达 0.27 美元 / 百万 token。
鉴于目前美国断供英伟达 H20 芯片,采用华为昇腾 910B 训练集群无疑可以降低对海外高端 AI 芯片的依赖。此外,华为全新的昇腾 910C 芯片也已经逐步开始进入大规模量产阶段,CloudMatrix 384 超节点采用 384 颗昇腾 910C 芯片,或将成为英伟达 NVL72 集群的替代方案,有助于进一步提高我国人工智能领域的硬件自主化水平。