NTU发布世界模型交互新范式:把手伸进屏幕不再是梦
给一张照片,对着空气比划几下,AI 就能生成手伸进场景里抓杯子、翻书、开盒子的逼真第一人称视频,物体也会产生对应的物理响应——还能自回归地一直生成下去,长视频也保持稳定。我们用逐像素的 Plücker 射线嵌入编码相机运动,通过轻量级 adapter 以加法方式注入扩散模型,将手部关节运动和头部自运动彻底解耦,解决上述手-相机歧义。如下图所示:训练时(上排),手在抓握物体,手部被遮挡,提取出的 m


从 Genie 3 到 LingBot-World,世界模型正成为 AI 领域最热的方向之一。
一个自然的问题是:如何让用户用最直觉的方式——手势——来驱动世界模型中的交互?
我们提出了 Hand2World:给一张照片,对着空气比划几下,AI 就能生成手伸进场景里抓杯子、翻书、开盒子的逼真第一人称视频,物体也会产生对应的物理响应——还能自回归地一直生成下去,长视频也保持稳定。
先看效果:


论文地址:
https://arxiv.org/abs/2602.09600
项目主页:
https://hand2world.github.io


这件事为什么难?
看起来很酷,但要做到这一点并不容易。
现有方法(CosHand、InterDyn、Mask2IV 等)普遍用 2D 手部 mask 作为控制信号。但这类方法有一个根本性的缺陷——mask 分布偏移。
如下图所示:训练时(上排),手在抓握物体,手部被遮挡,提取出的 mask 是残缺的;推理时(下排),用户在空气中凭空比划,手完全可见,mask 也是完整的。

〓 mask 分布偏移 vs 我们的遮挡不变条件信号
这种格式不一致会导致模型在遇到完整 mask 时产生错误的遮挡关系——比如 CosHand 在下排中生成了明显的伪影。
而我们的控制信号(Condition 列)是从 3D 手部 mesh 投影得到的「轮廓 + 线框」,无论手是否被遮挡,格式始终一致。
更关键的是,这不仅仅是提供了额外的几何信息——它让模型能够从生成目标本身隐式学会遮挡推理,而不是依赖输入信号中硬编码的可见性。
另一个挑战是手-相机歧义:第一人称视频中,用户一边比划手势一边自由转头,手部运动和相机运动在单目视角下纠缠在一起。如果不显式解耦,模型分不清「是手在动还是头在动」,背景就会漂移。


怎么做的?
Hand2World 基于视频扩散 Transformer(Wan2.1-1.3B-Control),三个核心设计分别解决上述问题:
(1)遮挡不变的手部条件信号。我们从单目视频中恢复完整的 3D 手部 mesh(MANO 模型),投影到图像平面,渲染为「轮廓 + 线框」的复合信号。
遮挡关系不再硬编码在输入中,而是交给生成模型根据场景上下文推断。线框叠层还能在手掌朝向相机、手指自遮挡时提供额外的关节结构信息。
(2)双通道相机解耦。我们用逐像素的 Plücker 射线嵌入编码相机运动,通过轻量级 adapter 以加法方式注入扩散模型,将手部关节运动和头部自运动彻底解耦,解决上述手-相机歧义。
(3)闭环交互生成系统。将双向扩散教师模型蒸馏为因果自回归生成器(基于 CausVid + self-forcing),通过 KV cache 维持时序连贯,支持任意长度的流式生成。
结合上述组件,Hand2World 构成了第一个完整的闭环交互系统——用户可以迭代地调整手势并实时观察生成的交互结果。
(4)可扩展的数据收集 Pipeline。我们还开发了一套全自动的单目标注流水线:YOLO 手部检测 + 时序滤波去噪 → HaMeR 估计 MANO 参数 → Depth Anything V3 恢复深度和相机位姿。
不需要人工标注、不需要多目相机,直接从普通第一人称视频中提取训练数据,为具身智能的大规模数据收集提供了可扩展的方案。


〓 方法流程图


效果如何?
我们在 ARCTIC、HOT3D、HOI4D 三个第一人称交互数据集上进行了评估。
与最强 baseline InterDyn 相比,Hand2World 将 FVD 从 908 降到 218(降幅 76%),相机轨迹误差从 0.13 降到 0.07(降幅 42%),DINO 语义相似度从 0.80 提升到 0.88。
消融实验表明,相机 adapter 是影响最大的单一组件——移除后 FVD 飙升到 815。
下图展示了有/无相机控制的对比:没有相机条件(上排)时模型无法跟随头部转动,背景严重漂移;加入 Plücker 射线嵌入后(中排),生成轨迹与真实视频(下排)高度一致。


〓 相机控制消融对比
下图展示了凭空手势下各方法的生成效果对比:


〓 定性对比
蒸馏后的 Hand2World-AR(FVD 232)性能接近教师模型,同时支持因果、流式的任意长度生成。


应用展望
Hand2World 在多个方向展现出应用潜力:AR/MR 眼镜场景下用手势与物体自然交互、为机器人大规模生成手-物交互训练数据、以及从单张照片构建可交互的虚拟环境。
作为这一任务的首个统一框架,Hand2World 在三个不同数据集上建立了基准。我们希望这个系统能成为交互式第一人称世界建模的一个起点,激发更多后续研究。更多可视化结果可访问项目主页。
更多阅读


#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·


更多推荐



所有评论(0)