超全的 World Model 与 VLA 论文收集

M宝可梦

608人浏览 · 2026-03-19 19:52:55

M宝可梦 · 2026-03-19 19:52:55 发布

World Model & VLA

最近发现了一个非常棒的开源项目——World Model & VLA 论文综述，由研究者 song2yu 维护。这是一个面向机器人 & 具身智能领域的交互式Survey，绝对是学习必收藏！
在这里插入图片描述

🔗 项目主页：https://song2yu.github.io/world-model-vla/

🔗 GitHub：https://github.com/song2yu/world-model-vla
在这里插入图片描述

📚 这个综述涵盖了什么？

World Models（世界模型）：如何让智能体学习环境的内部表征，建模"物理世界"
VLA（视觉-语言-动作模型）：融合视觉、语言、动作的机器人控制范式
Taxonomy & 对比：结构化梳理现有方法
关键论文 & Benchmark：精选参考文献和评估指标
未来方向：开放挑战与前沿趋势

🔥 2026年核心趋势一览

趋势代表工作
World Model 成为 VLA 后训练标配 WoVR、VLAW、RISE、AtomVLA、World2Act
潜在空间 CoT 替代文本 CoT Chain of World、DynVLA、LaST-VLA
3D/空间感知注入 GST-VLA、FutureVLA
自动驾驶 VLA 热潮 DynVLA、StyleVLA、EvoDriveVLA、SAMoE-VLA
推理效率优化 DepthCache、WorldCache、Planning in 8 Tokens
神经科学/符号融合 SaiVLA-0、NS-VLA

⭐ 亮点

交互式 HTML 页面——无需安装，浏览器直接打开就能看
自包含文件——下载 index.html 离线也能看
持续更新——追踪 2024-2026 最新论文
中文友好——页面有中文版本
🚀 如何使用？

克隆项目

git clone https://github.com/song2yu/world-model-vla.git

或者直接下载 HTML 文件

然后用浏览器打开 index.html

不想动手？直接访问：https://song2yu.github.io/world-model-vla/

如果你对 World Model、VLA、具身智能、自动驾驶这些方向感兴趣，这个项目绝对值得 Star 和收藏！⭐

来源：https://song2yu.github.io/world-model-vla/

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合