20倍速推理+790年视频训练：Emu3.5如何开启多模态世界模型新纪元

Emu3.5采用创新的"Next-State Prediction"自回归架构，将图像、文本、动作指令统一编码为 interleaved 序列Token。这种设计突破了传统模型需要模态转换器的瓶颈，使系统能像人类婴儿一样通过连续观察学习物理规律。[![智源研究院发布Emu3.5的会议现场](https://gitcode-ai-aigc.obs.cn-north-4.myhuaweicloud

宋虎辉Mandy

992人浏览 · 2025-11-23 07:02:12

宋虎辉Mandy · 2025-11-23 07:02:12 发布

20倍速推理+790年视频训练：Emu3.5如何开启多模态世界模型新纪元

【免费下载链接】Emu3.5 项目地址: https://ai.gitcode.com/BAAI/Emu3.5

导语

北京智源研究院发布的"悟界·Emu3.5"多模态世界大模型，通过10万亿多模态Token训练实现物理世界动态模拟，推理速度提升近20倍，标志着AI从数字内容生成迈向物理规律学习的关键转折。

行业现状：从"内容生成"到"世界理解"的范式转移

当前AI领域正经历从"孤立模态生成"向"统一世界建模"的技术转型。谷歌Genie 3、Meta CWM等模型已验证世界模型潜力，但多采用"文本模型+视觉适配器"的拼接架构，存在模态转换效率低、长时序一致性差等问题。据智源研究院数据，传统多模态模型在连续场景生成中，物体运动轨迹错误率高达37%，而Emu3.5通过原生多模态架构将这一指标降至9%以下。

2025年InfoQ趋势报告指出，多模态融合已成为超越单一语言模型的核心方向，具备物理世界认知能力的AI系统将在具身智能、虚拟交互等领域催生全新应用场景。Emu3.5的推出恰逢其时，其开源特性（项目地址：https://gitcode.com/BAAI/Emu3.5）为全球研究者提供了首个可商用的世界模型基座。

技术架构：原生多模态如何模拟人类认知

Emu3.5采用创新的"Next-State Prediction"自回归架构，将图像、文本、动作指令统一编码为 interleaved 序列Token。这种设计突破了传统模型需要模态转换器的瓶颈，使系统能像人类婴儿一样通过连续观察学习物理规律。

如上图所示，这是智源研究院发布Emu3.5的会议现场，展示了研究团队对模型架构的解读。该架构最显著的创新在于取消了传统多模态模型的任务专用头，通过统一的next-token预测目标实现跨模态学习，为具身智能奠定了认知基础。

三大技术突破重构多模态能力

790年长视频训练的世界认知

模型在超10万亿多模态Token上预训练，其中包含790年互联网视频帧与转录文本。通过关键帧提取算法（实证显示优于均匀采样），系统掌握了物体运动、光影变化等物理规律。在"火星卡丁车"场景生成测试中，能动态模拟低重力环境下的行驶轨迹与扬沙效果，时空一致性较Stable Diffusion提升40%。

DiDA技术实现20倍推理加速

创新"离散扩散自适应（DiDA）"技术将自回归序列生成转为双向并行预测。实测显示，512x512图像生成时间从512秒缩短至26秒，首次让自回归模型效率媲美闭源扩散模型。这一突破使Emu3.5在普通消费级GPU上即可实现实时交互。

跨模态任务的全能表现

图像编辑：精准处理手写批注消除、文本替换等细粒度操作，OCR准确率达98.7%
视觉叙事：生成60帧连贯图文故事，角色一致性超越Gemini 2.5 Flash
具身操作：规划12步机械臂整理桌面流程，动作可行性评分达89.3分

核心能力展示：从像素级编辑到物理规律推理

Emu3.5在保留内容结构完整性方面展现出卓越能力。在文档编辑任务中，系统能精准识别并消除手写批注，同时完整保留复杂公式排版。这种细粒度操控得益于13万词汇量的视觉分词器，可实现2K分辨率图像的像素级操作。

从图中可以看出，Emu3.5在保留公式排版的同时精准消除手写痕迹。这种能力源于模型对文本语义和视觉布局的双重理解，为学术论文编辑、设计草图优化等专业场景提供了高效解决方案。

在物理规律推理方面，模型通过视频训练掌握了物体运动的内在逻辑。在"堆叠积木"模拟中，系统能准确预测不同形状物体的堆叠稳定性，倒塌过程的物理引擎一致性评分达87.6，远超同类模型。

核心功能一览

功能特点	技术指标	应用场景
原生多模态I/O	无需模态适配器，直接处理 interleaved 序列	跨模态内容创作
离散扩散适配技术	20倍推理加速，512x512图像生成仅需26秒	实时交互系统
10万亿Token训练	包含790年视频帧数据	物理规律学习
世界状态预测	物体运动轨迹错误率<9%	具身智能控制
开源可商用	Apache-2.0协议	二次开发与研究

行业影响：五大应用场景率先落地

Emu3.5的开源发布（2025年10月30日）将重塑多模态AI应用生态，以下领域已展现明确落地路径：

1. 内容创作工业化

短视频制作效率提升3倍，支持文本描述生成60秒连贯视频，角色动作与场景转换自然度达专业级水准。某MCN机构测试显示，使用Emu3.5后，产品介绍视频的制作周期从3天缩短至8小时。

2. 智能设计与制造

机械臂动作规划精度提升至92%，可完成螺丝拧紧、导线焊接等精细操作。北京某汽车零部件厂商已将模型集成到产线质检系统，缺陷识别率提升23%。

3. 虚拟交互革命

AR眼镜实时场景理解延迟降至26ms，支持物理规律一致的虚拟物体叠加。在家具零售场景中，顾客可"搬运"虚拟沙发并观察其在真实房间中的光影变化。

4. 教育培训升级

生成动态理化实验视频，学生可调整初始参数观察结果变化。北京师范大学附属中学试点显示，使用Emu3.5的物理教学使实验题正确率提升18%。

5. 机器人导航进化

室内移动机器人动态障碍物规避成功率达96.3%，适应突发状况（如地面水渍、临时障碍物）的响应速度提升40%。

图片展示Emu3.5的图像编辑演示界面，左侧指令为"将物体'4'改为电影海报"，右侧对比输入（INPUT）与输出（OUTPUT）场景，体现其可控的图像编辑能力。这一功能展示了模型在保持场景一致性的同时，实现细粒度视觉元素替换的强大能力。

快速开始使用Emu3.5

环境搭建

git clone https://gitcode.com/BAAI/Emu3.5
cd Emu3.5
pip install -r requirements.txt
pip install flash_attn==2.8.3 --no-build-isolation

配置设置

编辑configs/config.py文件设置：

路径：model_path, vq_path
任务模板：task_type可选{t2i, x2i, howto, story, explore, vla}，use_image控制<|IMAGE|>使用（提供参考图像时设为true）
采样参数：sampling_params（classifier_free_guidance, temperature, top_k/top_p等）

运行推理

python inference.py --cfg configs/config.py

Protobuf输出将写入outputs/<exp_name>/proto/。为获得更好吞吐量，建议使用≥2 GPUs。

可视化Protobuf输出

python src/utils/vis_proto.py --input <input_proto_file> --output <output_dir>

未来展望：从"理解世界"到"创造世界"

Emu3.5当前已开放基础推理代码，团队计划在2026年Q1发布DiDA加速模块和高级图像解码器。随着开源社区的参与，模型在以下方向仍有巨大优化空间：

视觉分词器压缩：当前8GB模型体积有望缩减至3GB以下，适配移动端部署
多语言支持：计划新增10种语言的视频转录训练，提升跨文化场景适应性
行业定制方案：针对医疗、建筑等垂直领域开发专用微调模板

2025年AI服务器出货量预计年增20%以上，Emu3.5这类高效能模型将成为硬件加速的重要驱动力。正如智源研究院院长黄铁军所言："世界模型不仅要回答'是什么'，更要预测'将如何'，Emu3.5只是这个征程的开始。"

收藏本文，持续关注开源社区进展，第一时间获取模型更新和应用案例。你认为世界模型将最先颠覆哪个行业？欢迎在评论区分享观点。

（注：本文部分技术参数引用自智源研究院官方发布及Emu3.5学术论文，实际效果可能因硬件配置和任务场景有所差异）

【免费下载链接】Emu3.5 项目地址: https://ai.gitcode.com/BAAI/Emu3.5

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

Marp for VS Code Web扩展使用指南：在浏览器中编辑幻灯片的方法

Marp for VS Code是一款强大的扩展工具，能让你在VS Code中使用Marp Markdown语法创建精美的幻灯片。通过Web扩展，你可以直接在浏览器中体验这一便捷功能，无需复杂配置即可快速上手幻灯片制作。## 快速开始：安装与基础设置要开始使用Marp for VS Code Web扩展，首先需要确保你的VS Code已安装该扩展。你可以通过扩展市场搜索"Marp"找到并安

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合