清华团队研发“绝对零”训练法:大模型不靠外部数据,自己出题自己学也能提升推理能力

清华团队研发“绝对零”训练法:大模型不靠外部数据,自己出题自己学也能提升推理能力近日,清华大学、北京通用人工智能研究院与宾夕法尼亚州立大学研究团队联合提出 “绝对零”(Absolute Zero)训练法,无需外部数据即可通过大模型自我博弈解锁推理能力。

该方法让模型同时扮演 “任务生成者” 与 “问题解决者”,将推理任务转化为可执行的代码三元组(程序、输入、输出),通过溯因、演绎、归纳三类任务的自主生成与求解循环迭代,在代码执行器验证任务有效性后优化模型。

实验显示,经该方法训练的 Qwen-2.5 系列模型在编程任务 HumanEval + 等数据集及数学推理 MATH500 等数据集上准确率显著提升,且性能提升与模型规模正相关。相关成果引发 Reddit 热议,被认为是大模型自我进化的重要突破。

以下是论文链接:

隐藏内容!
登录后才能查看!
© 版权声明

相关文章