智源发布悟界·Emu3.5：开启多模态世界模型新纪元，推理速度提升20倍

10月30日，北京智源人工智能研究院（BAAI）发布大规模多模态世界模型“悟界·Emu3.5”，标志着AI从语言学习迈向多模态世界学习，为通用人工智能发展奠定关键技术基础。## 行业现状：多模态技术迎来爆发期随着大语言模型技术的成熟，AI正从单一文本处理向多模态融合演进。据前瞻产业研究院数据，2024年中国多模态大模型市场规模达45.1亿元，预计到2030年将突破969亿元，复合增速超65%

怀灏其Prudent

762人浏览 · 2025-11-10 04:24:40

怀灏其Prudent · 2025-11-10 04:24:40 发布

智源发布悟界·Emu3.5：开启多模态世界模型新纪元，推理速度提升20倍

【免费下载链接】Emu3.5 项目地址: https://ai.gitcode.com/BAAI/Emu3.5

导语

10月30日，北京智源人工智能研究院（BAAI）发布大规模多模态世界模型“悟界·Emu3.5”，标志着AI从语言学习迈向多模态世界学习，为通用人工智能发展奠定关键技术基础。

行业现状：多模态技术迎来爆发期

随着大语言模型技术的成熟，AI正从单一文本处理向多模态融合演进。据前瞻产业研究院数据，2024年中国多模态大模型市场规模达45.1亿元，预计到2030年将突破969亿元，复合增速超65%。当前主流模型普遍面临三大挑战：模态转换效率低、时空一致性弱、物理世界交互能力有限。而Emu3.5通过创新架构和训练方法，在这些核心痛点上实现突破。

产品亮点：从"理解"到"行动"的智能跨越

原生多模态架构与世界建模能力

Emu3.5采用340亿参数的稠密自回归Transformer架构，首创"下一状态预测"（Next-State Prediction）范式，通过超10万亿多模态token训练（含790年视频数据），实现对物理世界动态、时空关系与因果逻辑的建模。与传统模型不同，它无需模态适配器或任务专用头，可直接处理和生成交错的视觉-文本序列。

推理速度提升20倍的黑科技

针对自回归模型生成效率低的问题，Emu3.5提出"离散扩散自适应"（DiDA）技术，将串行token生成转为并行双向预测，在不损失性能的前提下，单图推理速度提升近20倍，首次让自回归模型效率媲美顶尖闭源扩散模型。

三大核心能力突破

动态物理世界模拟：能精准模拟物体运动轨迹和长时程因果关系，如预测苹果被拿走后桌面状态变化
时空一致世界探索：支持第一视角虚拟漫游，保持空间连贯性，如动态构建3D游戏场景
跨场景具身操作：可规划多步骤行动路径，为机器人交互提供认知基础

如上图所示，智源研究院技术交流会上，研究人员正在演示Emu3.5的虚拟世界探索功能。这一场景充分体现了模型的时空一致性能力，为开发者理解多模态世界模型提供了直观参考。

性能超越多款闭源模型

基准测试显示，Emu3.5在图像生成/编辑任务上媲美Gemini 2.5 Flash Image（Nano Banana），在图文交错生成任务上表现更优。其视觉分词器基于IBQ框架，拥有13万视觉词汇表，支持2K分辨率高保真图像重建。

应用场景：从内容创作到具身智能

高精度图文创作与编辑

Emu3.5支持自然语言驱动的精准图像编辑，如消除手写痕迹、替换指定物体等。以下是官方演示的文档编辑效果：

左侧为带手写批注的输入文档，右侧为Emu3.5处理后去除手写痕迹的结果。该功能展示了模型对文本与图像细节的精准理解，可广泛应用于文档处理、设计修改等场景。

沉浸式多模态叙事与教程生成

模型能生成长时序一致的图文故事，支持步骤式教学内容创作。例如根据"制作咖啡"指令，生成包含原料准备、冲泡过程、成品展示的连贯图文教程。

跨场景具身操作

在虚拟环境中，Emu3.5可实现第一视角的空间探索和物体交互，如模拟火星卡丁车驾驶、动态3D游戏世界漫游等，为机器人导航、VR内容创建等领域提供基础能力。

行业影响：重构多模态技术格局

开源生态与技术普惠

Emu3.5已在Gitcode开源（仓库地址：https://gitcode.com/BAAI/Emu3.5），提供完整推理代码和模型权重，降低企业和开发者使用门槛。这一举措将加速多模态技术在各行业的应用落地，推动从"闭源垄断"向"开源协作"的生态转变。

商业化应用前景

Emu3.5的技术突破为三类场景创造商业价值：

内容创作：提升设计、广告、影视制作效率，降低多模态内容生产成本
智能交互：赋能AR/VR设备、智能座舱等场景的自然交互
具身智能：为服务机器人、工业自动化提供认知基础

智源研究院院长王仲远表示："Emu3.5为通用人工智能提供了坚实实践路径，AI下一次跃迁将源于对现实世界的深层表征与行动指导能力。"

结论与前瞻

Emu3.5通过统一世界建模、高效推理和开源策略，重新定义了多模态大模型的技术标准。随着模型性能提升和应用拓展，我们将看到：

多模态技术从边缘应用走向主流，成为AI产业核心增长引擎
行业解决方案从"单一模态"向"多模态融合"升级
具身智能和物理世界交互成为新的竞争焦点

对于企业和开发者，建议重点关注Emu3.5在以下领域的应用机会：智能内容生成平台、虚实结合的交互系统、基于物理规则的仿真训练。随着开源社区的发展，这些创新应用的开发门槛将持续降低，为行业带来更多可能性。

图片展示了Emu3.5的高精度图像编辑能力，左侧输入指令"将物体4改为电影海报"，右侧为修改后的房间场景。这一功能体现了模型对自然语言指令的精准理解和图像生成能力，预示着内容创作工具的智能化升级方向。

随着Emu3.5的发布，人工智能正式进入"世界学习"新阶段。对于行业从业者而言，把握多模态技术变革趋势，将成为未来竞争的关键。建议关注智源研究院后续技术进展，积极参与开源社区，探索适合自身业务的创新应用场景。

【免费下载链接】Emu3.5 项目地址: https://ai.gitcode.com/BAAI/Emu3.5

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合