通过自监督世界模型进行探索规划（论文解读）

强化学习中的自监督学习：让智能体快速适应新任务本文介绍了一种名为自监督强化学习的新方法，该方法通过让智能体在没有奖励的情况下探索环境，学习一个“世界模型”，从而使其能够快速适应不同的任务。传统强化学习的局限性:传统的强化学习方法需要为每个任务单独训练一个智能体，这会导致数据需求量大，且难以将学到的知识迁移到其他任务。自监督强化学习的优势:自监督强化学习通过在没有奖励的情况下进行探索，让智...

YannicKilcher

423人浏览 · 2024-08-16 18:40:16

YannicKilcher · 2024-08-16 18:40:16 发布

强化学习中的自监督学习：让智能体快速适应新任务

本文介绍了一种名为自监督强化学习的新方法，该方法通过让智能体在没有奖励的情况下探索环境，学习一个“世界模型”，从而使其能够快速适应不同的任务。

传统强化学习的局限性:

传统的强化学习方法需要为每个任务单独训练一个智能体，这会导致数据需求量大，且难以将学到的知识迁移到其他任务。

自监督强化学习的优势:

自监督强化学习通过在没有奖励的情况下进行探索，让智能体学习环境的运作方式，从而构建一个“世界模型”。这个模型可以帮助智能体快速适应不同的任务。

自监督强化学习的具体方法:

智能体被放置在一个没有奖励的环境中，自由地进行探索。
智能体通过观察环境的状态和自身采取的动作，学习一个“世界模型”。
当新的任务出现时，智能体可以利用之前学到的“世界模型”，快速适应新任务。

举例说明:

智能体被放置在一个虚拟环境中，可以控制一个虚拟角色。
在没有奖励的情况下，智能体通过移动、跳跃等操作，学习环境的物理特性。
当新的任务出现，例如“向前奔跑”或“向后翻滚”时，智能体可以利用之前学到的“世界模型”，快速完成这些任务。

总结:

自监督强化学习通过让智能体在没有奖励的情况下进行探索，学习一个“世界模型”，从而使其能够快速适应不同的任务。这为强化学习的应用提供了新的思路，并有望推动人工智能领域的发展。

没有奖励，智能体能做什么？探索世界！虽然存在许多内在奖励的公式（好奇心、新奇性等），但它们都回顾过去进行学习。Plan2Explore 是第一个使用规划来学习想象中的潜在世界模型，以寻找它对未来会发生什么不确定的状态的模型。
大纲：0:00 - 简介和问题陈述3:30 - 模型5:10 - 内在动机9:05 - 潜在空间中的规划11:15 - 潜在分歧16:30 - 最大化信息增益21:00 - 模型的更多问题26:45 - 实验32:10 - 最后评论论文：https://arxiv.org/abs/2005.05960网站：https://ramanans1.github.io/plan2explore/代码：https://github.com/ramanans1/plan2explore
摘要：强化学习可以解决复杂的任务，但是，学习往往是特定于任务的，样本效率仍然是一个挑战。我们提出了 Plan2Explore，这是一种自监督强化学习智能体，通过一种新的自监督探索方法和对新任务的快速适应来解决这两个挑战，这些任务在探索期间不需要被知道。在探索过程中，与之前的方法不同，之前的方法是在智能体已经到达观察结果后回顾性地计算观察结果的新颖性，我们的智能体通过利用规划来寻找预期的未来新颖性，从而有效地行动。在探索之后，智能体能够快速地适应多个下游任务，以零样本或少量样本的方式。我们在来自高维图像输入的具有挑战性的控制任务上进行了评估。在没有任何训练监督或特定于任务的交互的情况下，Plan2Explore 优于之前自监督探索方法，事实上，几乎与拥有奖励访问权限的预言机相匹配。视频和代码在该 https URL 上

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合