DeepSeek-Prover-V2:AI数学推理新王者,88.9% 通过率设新标杆
IT之家 5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。
IT之家援引论文介绍,DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源大型语言模型,基于 DeepSeek-V3-0324,通过递归定理证明管道生成初始数据。
Deepseek 推出了 DeepSeek-Prover-V2-671B(结合 V3 基础大模型)、DeepSeek-Prover-V2-7B(增强模型)两个模型,以及 DeepSeek-ProverBench 数据集。
DeepSeek-Prover-V2-671B 采用和 DeepSeek V3-0324 相同的架构,并非用于常规对话或者推理,而是用于形式化定理证明、专门增强数学能力的模型。
DeepSeek 团队首先引导 DeepSeek-V3 模型将复杂定理分解为一系列子目标(subgoals),整合非形式与形式化数学推理,在 Lean 4 平台上形式化证明步骤。
接着,利用一个较小的 7B 参数模型处理子目标的证明搜索,减轻计算负担。最终,结合完整的逐步证明与 DeepSeek-V3 的思维链(chain-of-thought),形成强化学习的“冷启动”数据。
在训练中,团队筛选出一批 7B 模型无法直接解决但子目标已被证明的难题。通过整合子目标证明,形成完整的形式化证明,并与 DeepSeek-V3 的推理过程对接,生成合成数据。
随后,模型微调这些数据,并通过强化学习进一步提升能力,以二元反馈(正确或错误)作为奖励机制。最终,DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达 88.9%,在 PutnamBench 数据集中解决 658 个问题中的 49 个。
团队还发布了 ProverBench 基准数据集,包含 325 个形式化数学问题。其中,15 个问题源自近期 AIME 竞赛(AIME 24 和 25),涉及数论与代数,代表高中竞赛难度。
其余 310 个问题则来自精选教材和教学内容,涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准,推动模型在多样化场景下的测试与应用。
下一篇:没有了
- 维修知识
- 安装知识
- 清洗保养
- 行业新闻
- 常见问题
- 奥尔宝集成灶维修电话05-01
- Gaggenau油烟机售后服务号码05-01
- 佛山雪咖冰箱售后服务热线是多少05-01
- 雷神烤箱售后服务号码05-01
- 前锋集成灶售后电话05-01
- Kabote锅炉售后电话05-01
- 赛度锅炉售后电话05-01
- 舒蜜家壁挂炉售后24小时人工客服05-01
- 佛山哈士奇红酒柜售后维修是多少05-01
- 奥克斯智能马桶售后维修05-01
- 广州梅莱冰箱售后维修是多少05-01
- 量子计算机会取代经典计算机吗?05-01
- 巨承风幕柜售后维修05-01
- DAMIELE烤箱售后维修05-01
- 2025年五一档新片总票房破亿05-01
- 现货黄金日内跌50美元 失守3240关口05-01
- 卡德尔锅炉售后维修电话是多少05-01
- 硕田燃气灶售后服务热线05-01
- 信号强度为0怎么?如何提高无线信号强度?05-01
- 千惠侬地暖售后维修05-01
- 1LG的L筒洗衣机灯为什么全亮了(LG洗衣机灯全亮原因分析)
- 2冰墩墩多少钱一个(冰墩墩热销中-超值价格限时抢购!)
- 3XSAN燃气灶客服热线(XSAN燃气灶客服:热线贴心服务)
- 4美的3p空调现p8什么意思(美的3P空调现P8,意味着什么?)
- 5豆浆机为什么不能加热(豆浆机为什么不可加热?)
- 6格力空调出现fc是什么意思(格力空调出现FC是什么意思?简明解释!)
- 7东芝182维修代码(东芝182维修代码全解答)
- 816脚芯片什么作用(16脚芯片:引领科技革新的重要组成部分)
- 9海尔保鲜柜不制冷是什么原因(海尔保鲜柜不制冷原因解析)
- 10美的冰箱温度怎么调(美的冰箱:轻松调控温度,守护鲜美(25字))