清华研究颠覆认知:强化学习未突破大模型能力边界
2025-04-25
清华大学与上海交通大学的研究发现,强化学习(RLVR)训练的大模型在数学、代码、视觉推理等任务中,其推理能力边界未突破基座模型。实验显示,RLVR仅优化了采样效率,但正确答案已存在于基座模型中,且在大规模采样时基座模型表现更优。该研究质疑了RL对大模型推理能力的实质性提升作用,可能影响市场对RL技术的预期。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
