20倍速+790年视频训练：Emu3.5开创多模态世界模型新纪元

北京智源研究院（BAAI）发布悟界·Emu3.5多模态世界大模型，以340亿参数、10万亿+多模态Token训练量及20倍推理加速技术，重新定义AI对物理世界的理解与生成能力。### 行业现状：从“模块拼接”到“原生统一”当前主流多模态模型多采用“LLM+视觉模块”拼接架构，存在模态割裂、推理效率低等问题。2025年，谷歌Genie 3、Meta CWM等模型虽推动世界建模探索，但均未实

温姬尤Lee

346人浏览 · 2025-11-27 04:44:52

温姬尤Lee · 2025-11-27 04:44:52 发布

导语

【免费下载链接】Emu3.5-Image 项目地址: https://ai.gitcode.com/BAAI/Emu3.5-Image

北京智源研究院（BAAI）发布悟界·Emu3.5多模态世界大模型，以340亿参数、10万亿+多模态Token训练量及20倍推理加速技术，重新定义AI对物理世界的理解与生成能力。

行业现状：从“模块拼接”到“原生统一”

当前主流多模态模型多采用“LLM+视觉模块”拼接架构，存在模态割裂、推理效率低等问题。2025年，谷歌Genie 3、Meta CWM等模型虽推动世界建模探索，但均未实现端到端统一。Emu3.5通过原生多模态自回归架构，首次验证“Next-State Prediction”范式的可行性，标志AI从“数字内容生成”迈向“物理世界模拟”。

核心亮点：三大技术突破重构多模态能力

1. 790年长视频炼就“世界理解力”

Emu3.5在累计790年时长的视频数据（含连续帧与转录文本）上预训练，捕捉物体运动规律、因果关系等物理世界知识。例如，用户指令“第一视角参观火星基地”时，模型能动态生成空间一致的漫游画面，模拟真实物理空间的视觉连续性。

2. DiDA技术实现20倍推理加速

传统自回归模型生成图像需逐个Token计算，耗时长达分钟级。Emu3.5创新的离散扩散适配（DiDA）技术，将序列生成转为并行双向预测，在保持生成质量的前提下，单图推理速度提升20倍，达到商业化落地要求。

3. 全能创作与具身指导能力

如上图所示，Emu3.5可精准执行“消除手写痕迹”等高难度编辑任务，保留文档格式与内容完整性。这一能力得益于其统一多模态架构，无需专用编辑模块即可理解文本与图像的深层关联。

该模型支持长时序图文生成（如分步骤教程、连贯故事绘本）、任意到图像（X2I）转换（草图→设计稿、老照片修复），甚至能生成机器人操作步骤，为具身智能提供“虚拟教练”。

行业影响：从内容创作到具身智能的全场景变革

1. 内容生产效率跃升

设计师可通过自然语言指令完成从草图到成品的全流程创作，如将“未来城市简笔画”转化为2K分辨率渲染图。测试显示，Emu3.5在文本渲染准确率上超越Gemini 2.5 Flash Image，尤其擅长生成含复杂公式、多语言文字的图像。

2. 具身智能突破数据瓶颈

从图中可以看出，Emu3.5在世界探索、具身操作等任务上胜率显著领先竞品。智源研究院院长王仲远表示，该模型让人形机器人从“预设场景执行”升级为“泛化环境适应”，例如生成“松灵机械臂整理桌面”的12步操作指南，为机器人提供仿真训练数据。

行业趋势：多模态Scaling范式确立

Emu3.5验证了“预训练+多模态强化学习”的Scaling路径：通过10万亿Token预训练奠定基础能力，再经RL优化推理与生成质量。这一路线复用LLM成熟基建，为后续模型迭代提供清晰方法论。开源后，开发者可基于其34B参数版本，探索游戏开发、虚拟导览、工业仿真等场景。

结论：AI从“理解”到“行动”的转折点

Emu3.5不仅是技术突破，更标志AI从“被动响应”转向“主动预测”。其开源特性（仓库地址：https://gitcode.com/BAAI/Emu3.5-Image）将加速多模态技术普及，推动智能交互、具身机器人等领域从概念走向落地。未来，随着视频数据规模与模型参数量的进一步Scaling，AI对物理世界的模拟能力或将接近人类直觉水平。

如上图所示，Emu3.5的发布引发行业广泛关注。这一技术突破不仅彰显中国在AI原生创新领域的实力，更为通用人工智能提供了“理解世界—预测变化—指导行动”的完整实践路径。对于开发者与企业而言，抓住多模态世界模型机遇，将成为下一波AI应用革新的关键。

【免费下载链接】Emu3.5-Image 项目地址: https://ai.gitcode.com/BAAI/Emu3.5-Image

全球具身智能开发者社区

立足具身智能前沿赛道，致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

全球具身智能开发者社区

YoMo安全机制详解：TLS v1.3如何保护你的AI代理通信

在当今AI驱动的分布式系统中，安全通信已成为不可忽视的核心需求。YoMo作为Serverless AI Agent Framework，采用TLS v1.3加密协议构建了强大的安全防护机制，确保AI代理在地理分布式边缘计算环境中的通信安全。本文将深入解析YoMo的TLS实现原理、配置方法及最佳实践，帮助开发者构建安全可靠的AI应用。## 为什么TLS v1.3是AI代理通信的理想选择TLS

全球具身智能开发者社区

InternScenes开源数据集

数据集介绍 InternScenes 是上海人工智能实验室发布的大规模、可模拟室内场景数据集，论文收录于 NeurIPS 2025。具身人工智能的发展高度依赖于具有场景多样性和逼真布局的大规模、可模拟3D场景数据集。然而，现有数据集通常存在以下不足：数据规模或多样性有限、布局经过"净化"处理导致小物体缺失，以及严重的物体碰撞问题。为解决上述问题，InternScenes 整合