直播预约 | LUFFY：让推理模型实现“即学即用”的强化学习训练方法

然而，现有的零强化学习(zero-RL)方法本质上是"同策略"(on-policy)的，这限制了模型只能从自身输出中学习，无法获得超出其初始能力的推理能力。分析表明，LUFFY不仅能有效模仿，还能探索超越示范的空间，为使用离策略指导训练可泛化的推理模型提供了一条可扩展的路径。每周进行学术分享，形式包括圆桌会议、主题分享、单篇论文深度分享等，内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。

zenRRan

166人浏览 · 2025-04-28 21:13:31

zenRRan · 2025-04-28 21:13:31 发布

主题

LUFFY：让推理模型实现“即学即用”的强化学习训练方法

时间

2025.4.29 20:00 北京时间

分享内容

paper: Learning to Reason under Off-Policy Guidance
link: https://arxiv.org/abs/2504.14945

大型推理模型(LRMs)的最新进展表明，通过使用简单的基于规则的奖励进行强化学习(RL)，可以形成诸如多步推理和自我反思等复杂行为。然而，现有的零强化学习(zero-RL)方法本质上是"同策略"(on-policy)的，这限制了模型只能从自身输出中学习，无法获得超出其初始能力的推理能力。我们提出了LUFFY(在离策略指导下学习推理，Learning to reason Under oFF-policY guidance)，这是一个通过离策略推理轨迹来增强零强化学习的框架。LUFFY在训练过程中通过结合离策略示范和同策略推演，动态平衡模仿和探索。值得注意的是，我们提出了通过正则化重要性采样进行策略塑造，以避免混合策略训练中的表面和僵化模仿。LUFFY在六个数学基准测试中平均提高了7.0分，在分布外任务中提升6.2 分。它还大幅超越了基于模仿的监督微调(SFT)，特别是在泛化能力方面。分析表明，LUFFY不仅能有效模仿，还能探索超越示范的空间，为使用离策略指导训练可泛化的推理模型提供了一条可扩展的路径。

嘉宾

颜建昊，西湖大学张岳老师的博士三年级学生。主要研究兴趣在基于大模型的后训练技术，包括强化学习、在线学习以及模型编辑等。在读博之前，颜建昊曾在微信 AI 任研究员，曾赢得 WMT 机器翻译比赛。

李雅夫博士，现任上海浦江实验室研究员，研究方向涵盖大语言模型推理、可信人工智能与机器翻译。他于浙江大学与西湖大学联合培养攻读博士学位，先后在爱丁堡大学与武汉大学获得人工智能硕士和电子信息工程学士学位。李雅夫博士在 ACL、EMNLP、ICLR 等顶级会议上发表多项研究成果，引用逾1800次，曾荣获 ACL 2023 最佳论文提名，并担任 ACL 领域主席及多个国际顶会与期刊的审稿人。博士期间，他曾获得国家奖学金，入选腾讯犀牛鸟精英人才计划并获得杰出奖学金。

入群

欢迎加入NICE每周分享交流群，可与NICEer唠嗑，以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证，群内无广告。

备注【昵称-单位-方向-NICE入群】

NICE介绍

NICE(NLP Academic Exchange Platform)成立于2023.11.26，由国内外高校一线青年教师和学生共同组织。每周进行学术分享，形式包括圆桌会议、主题分享、单篇论文深度分享等，内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。至今已举办近80场分享、嘉宾近150人、全网拥有粉丝量10+万，b站和视频号一共大约20万播放量。详情见：
NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@NLPAcademicExchangePlatform

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合