标题

SwS-弱点驱动的自我进化,重塑RL边界

时间

2025.6.27 周五 10:30-11:30 北京时间

内容简介

这篇论文提出了一种针对强化学习(RL)场景下的启发式的数据合成流程(SwS),通过合成数据驱动的RL训练提升模型的推理能力。具体而言,该方法首先通过初步的强化学习阶段主动识别模型在自我探索过程中暴露出的薄弱环节,随后基于这些弱项合成针对性的问题,并将这些合成的问题引入后一阶段的强化通常学习中,以精准地弥补模型的推理缺陷。

在RL训练中,总会存在一些模型无法通过自身探索有效学习的题目。此外,对于模型完全无法回答的问题,主流的 LLM 强化学习算法(如GRPO)通常也难以产生有效的训练信号。然而,这类问题恰恰反映了模型自身推理能力的局限性。因此,一个关键的研究问题便是:如何有效地识别并利用这些暴露出来的弱点,以实现模型能力的针对性提升?针对这一挑战,我们提出了SwS(Self-aware Weakness-driven Problem Synthesis)框架,无需人工标注微调或外部知识蒸馏,利用模型自我感知的弱点驱动自动化问题生成,精准锁定模型持续难以掌握的关键难题,并据此合成高度针对性的训练数据。这种方法避免了盲目扩充题库带来的低效问题,使生成的问题能够切实帮助模型在持续迭代过程中主动探索并逐步突破自身的能力瓶颈,从而实现对关键难题的有效攻克。

与此同时,我们对SwS框架进行了多项扩展,使其具备更广泛的适应性。具体而言,我们探讨了SwS在“由弱到强泛化”场景下的灵活性,即使采用能力相对较弱的模型进行答案标注,通过困难度筛选和自我一致性机制,仍能显著提升较强学生模型的推理能力。此外,我们也探索了利用基础模型自行执行 SwS 流程,通过模型自身的指令遵循能力增强推理能力。最后,为了进一步减少生成问题和验证答案所需的计算资源,我们还尝试了一种选择性数据增强的策略,即依据模型暴露出的弱点,从更大的数据集中挑选问题用于强化训练,同样有效地帮助模型克服自身弱点。

我们在8个广泛使用的主流推理基准测试集,以及涵盖3B至32B多个规模的模型上验证了 SwS 框架的有效性。实验结果表明,SwS-32B模型在各类主流任务上取得了高达25.5%的性能提升,尤其在长期难以解决的代数、几何和微积分领域,显著降低了难题的攻克难度。该工作相关的链接如下:

论文:SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning
链接:https://arxiv.org/pdf/2506.08989
项目主页:https://mastervito.github.io/MasterVito.SwS.github.io/
代码主页:https://github.com/MasterVito/SwS
数据集(Demo):https://huggingface.co/datasets/MasterVito/SwS-Demo-Dataset

嘉宾

梁潇,清华大学硕士毕业,目前于 MSRA 实习,Mentor 为 Yeyun Gong 和 Weizhu Chen; 即将前往 UCLA 攻读博士学位,导师为 Ying Nian Wu 教授。研究方向为  LLM Reasoning, Post Training, Reinforcement Learning,并在ICLR, NeurIPS, ACL, AAAI, EMNLP等会议发表多篇论文。

主持人

李忠志,中国科学院自动化所直博三年级,导师为刘成林老师,研究方向为 Geomtry Reasoning, Multimodal Learning, System-2 Reason, 并在ACL,CVPR,COLING,PAMI等期刊和会议上发表了多篇论文。

入群

欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证,群内无广告。

备注【昵称-单位-方向-NICE入群】

NICE介绍

NICE(NLP Academic Exchange Platform)成立于2023.11.26,由国内外高校一线青年教师和学生共同组织。每周进行学术分享,形式包括圆桌会议、主题分享、单篇论文深度分享等,内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。至今已举办近100场分享、嘉宾150+人、全网拥有粉丝量10+万,b站和视频号一共大约50万播放量。详情见:
NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@NLPAcademicExchangePlatform

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐