NTU发布世界模型交互新范式：把手伸进屏幕不再是梦

给一张照片，对着空气比划几下，AI 就能生成手伸进场景里抓杯子、翻书、开盒子的逼真第一人称视频，物体也会产生对应的物理响应——还能自回归地一直生成下去，长视频也保持稳定。我们用逐像素的 Plücker 射线嵌入编码相机运动，通过轻量级 adapter 以加法方式注入扩散模型，将手部关节运动和头部自运动彻底解耦，解决上述手-相机歧义。如下图所示：训练时（上排），手在抓握物体，手部被遮挡，提取出的 m

PaperWeekly

50人浏览 · 2026-04-06 12:35:29

PaperWeekly · 2026-04-06 12:35:29 发布

从 Genie 3 到 LingBot-World，世界模型正成为 AI 领域最热的方向之一。

一个自然的问题是：如何让用户用最直觉的方式——手势——来驱动世界模型中的交互？

我们提出了 Hand2World：给一张照片，对着空气比划几下，AI 就能生成手伸进场景里抓杯子、翻书、开盒子的逼真第一人称视频，物体也会产生对应的物理响应——还能自回归地一直生成下去，长视频也保持稳定。

先看效果：

论文地址：

https://arxiv.org/abs/2602.09600

项目主页：

https://hand2world.github.io

这件事为什么难？

看起来很酷，但要做到这一点并不容易。

现有方法（CosHand、InterDyn、Mask2IV 等）普遍用 2D 手部 mask 作为控制信号。但这类方法有一个根本性的缺陷——mask 分布偏移。

如下图所示：训练时（上排），手在抓握物体，手部被遮挡，提取出的 mask 是残缺的；推理时（下排），用户在空气中凭空比划，手完全可见，mask 也是完整的。

〓 mask 分布偏移 vs 我们的遮挡不变条件信号

这种格式不一致会导致模型在遇到完整 mask 时产生错误的遮挡关系——比如 CosHand 在下排中生成了明显的伪影。

而我们的控制信号（Condition 列）是从 3D 手部 mesh 投影得到的「轮廓 + 线框」，无论手是否被遮挡，格式始终一致。

更关键的是，这不仅仅是提供了额外的几何信息——它让模型能够从生成目标本身隐式学会遮挡推理，而不是依赖输入信号中硬编码的可见性。

另一个挑战是手-相机歧义：第一人称视频中，用户一边比划手势一边自由转头，手部运动和相机运动在单目视角下纠缠在一起。如果不显式解耦，模型分不清「是手在动还是头在动」，背景就会漂移。

怎么做的？

Hand2World 基于视频扩散 Transformer（Wan2.1-1.3B-Control），三个核心设计分别解决上述问题：

（1）遮挡不变的手部条件信号。我们从单目视频中恢复完整的 3D 手部 mesh（MANO 模型），投影到图像平面，渲染为「轮廓 + 线框」的复合信号。

遮挡关系不再硬编码在输入中，而是交给生成模型根据场景上下文推断。线框叠层还能在手掌朝向相机、手指自遮挡时提供额外的关节结构信息。

（2）双通道相机解耦。我们用逐像素的 Plücker 射线嵌入编码相机运动，通过轻量级 adapter 以加法方式注入扩散模型，将手部关节运动和头部自运动彻底解耦，解决上述手-相机歧义。

（3）闭环交互生成系统。将双向扩散教师模型蒸馏为因果自回归生成器（基于 CausVid + self-forcing），通过 KV cache 维持时序连贯，支持任意长度的流式生成。

结合上述组件，Hand2World 构成了第一个完整的闭环交互系统——用户可以迭代地调整手势并实时观察生成的交互结果。

（4）可扩展的数据收集 Pipeline。我们还开发了一套全自动的单目标注流水线：YOLO 手部检测 + 时序滤波去噪 → HaMeR 估计 MANO 参数 → Depth Anything V3 恢复深度和相机位姿。

不需要人工标注、不需要多目相机，直接从普通第一人称视频中提取训练数据，为具身智能的大规模数据收集提供了可扩展的方案。

〓方法流程图

效果如何？

我们在 ARCTIC、HOT3D、HOI4D 三个第一人称交互数据集上进行了评估。

与最强 baseline InterDyn 相比，Hand2World 将 FVD 从 908 降到 218（降幅 76%），相机轨迹误差从 0.13 降到 0.07（降幅 42%），DINO 语义相似度从 0.80 提升到 0.88。

消融实验表明，相机 adapter 是影响最大的单一组件——移除后 FVD 飙升到 815。

下图展示了有/无相机控制的对比：没有相机条件（上排）时模型无法跟随头部转动，背景严重漂移；加入 Plücker 射线嵌入后（中排），生成轨迹与真实视频（下排）高度一致。

〓相机控制消融对比

下图展示了凭空手势下各方法的生成效果对比：

〓定性对比

蒸馏后的 Hand2World-AR（FVD 232）性能接近教师模型，同时支持因果、流式的任意长度生成。

应用展望

Hand2World 在多个方向展现出应用潜力：AR/MR 眼镜场景下用手势与物体自然交互、为机器人大规模生成手-物交互训练数据、以及从单张照片构建可交互的虚拟环境。

作为这一任务的首个统一框架，Hand2World 在三个不同数据集上建立了基准。我们希望这个系统能成为交互式第一人称世界建模的一个起点，激发更多后续研究。更多可视化结果可访问项目主页。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

Marp for VS Code Web扩展使用指南：在浏览器中编辑幻灯片的方法

Marp for VS Code是一款强大的扩展工具，能让你在VS Code中使用Marp Markdown语法创建精美的幻灯片。通过Web扩展，你可以直接在浏览器中体验这一便捷功能，无需复杂配置即可快速上手幻灯片制作。## 快速开始：安装与基础设置要开始使用Marp for VS Code Web扩展，首先需要确保你的VS Code已安装该扩展。你可以通过扩展市场搜索"Marp"找到并安

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合