InfoQ发布2025推理模型评测报告：文心X1 Turbo领跑国内总分第一

小咖科技

2025-05-29 12:09 中国

 45228  0  0

5月29日，极客邦科技双数研究院InfoQ研究中心正式发布《2025推理模型评测报告》，基于逻辑推理、数学推理、多步推理、语言推理、及幻觉控制五大维度，对OpenAI O3、文心X1 Turbo、DeepSeek-R1、Kimi k1.5、Doubao-1.5-thinking-pro、Qwen3-235B-A22B等八款国内外主流推理模型展开深度评估。报告显示，文心X1 Turbo以总分第一的成绩领跑国内模型，并在幻觉控制、语言推理等核心维度展现显著优势，成为国内首个在五大评测维度中斩获最多单项冠军的推理模型。

InfoQ研究中心指出，受“推理时计算拓展”与“可验证奖励强化学习”两大技术范式驱动，全球厂商已进入推理模型密集发布期，OpenAI o1、DeepSeek R1、文心 X1 Turbo、Claude 3.7 Sonnet Reasoning等十余款推理模型相继上线，争夺下一代大模型的“推理入场券”。

根据报告，文心X1 Turbo是本次评测中“单项冠军数量最多”的模型，在五大细分维度中表现亮眼：在幻觉控制方面，文心X1 Turbo以80.56%的得分位列第一，领先DeepSeek-R1、Qwen3-235B-A22B等模型，有效降低模型生成错误或误导性信息的风险；在语言推理方面，文心X1 Turbo以70.31%的得分位列第一，领先Doubao-1.5-thinking-pro、DeepSeek-R1、Qwen3-235B-A22B等模型；在数学推理方面，OpenAI O3以81.25%的得分位列第一，文心X1 Turbo紧跟其后，位居国内第一。