主题

LUFFY:让推理模型实现“即学即用”的强化学习训练方法

时间

2025.4.29 20:00 北京时间

分享内容

paper: Learning to Reason under Off-Policy Guidance
link: https://arxiv.org/abs/2504.14945

大型推理模型(LRMs)的最新进展表明,通过使用简单的基于规则的奖励进行强化学习(RL),可以形成诸如多步推理和自我反思等复杂行为。然而,现有的零强化学习(zero-RL)方法本质上是"同策略"(on-policy)的,这限制了模型只能从自身输出中学习,无法获得超出其初始能力的推理能力。我们提出了LUFFY(在离策略指导下学习推理,Learning to reason Under oFF-policY guidance),这是一个通过离策略推理轨迹来增强零强化学习的框架。LUFFY在训练过程中通过结合离策略示范和同策略推演,动态平衡模仿和探索。值得注意的是,我们提出了通过正则化重要性采样进行策略塑造,以避免混合策略训练中的表面和僵化模仿。LUFFY在六个数学基准测试中平均提高了7.0分,在分布外任务中提升6.2 分。它还大幅超越了基于模仿的监督微调(SFT),特别是在泛化能力方面。分析表明,LUFFY不仅能有效模仿,还能探索超越示范的空间,为使用离策略指导训练可泛化的推理模型提供了一条可扩展的路径。

嘉宾

颜建昊,西湖大学张岳老师的博士三年级学生。主要研究兴趣在基于大模型的后训练技术,包括强化学习、在线学习以及模型编辑等。在读博之前,颜建昊曾在微信 AI 任研究员,曾赢得 WMT 机器翻译比赛。

李雅夫博士,现任上海浦江实验室研究员,研究方向涵盖大语言模型推理、可信人工智能与机器翻译。他于浙江大学与西湖大学联合培养攻读博士学位,先后在爱丁堡大学与武汉大学获得人工智能硕士和电子信息工程学士学位。李雅夫博士在 ACL、EMNLP、ICLR 等顶级会议上发表多项研究成果,引用逾1800次,曾荣获 ACL 2023 最佳论文提名,并担任 ACL 领域主席及多个国际顶会与期刊的审稿人。博士期间,他曾获得国家奖学金,入选腾讯犀牛鸟精英人才计划并获得杰出奖学金。

入群

欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。

备注【昵称-单位-方向-NICE入群】

NICE介绍

NICE(NLP Academic Exchange Platform)成立于2023.11.26,由国内外高校一线青年教师和学生共同组织。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。至今已举办近80场分享、嘉宾近150人、全网拥有粉丝量10+万,b站和视频号一共大约20万播放量。详情见:
NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@NLPAcademicExchangePlatform

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐