导语

【免费下载链接】Emu3.5-Image 【免费下载链接】Emu3.5-Image 项目地址: https://ai.gitcode.com/BAAI/Emu3.5-Image

北京智源研究院(BAAI)发布悟界·Emu3.5多模态世界大模型,以340亿参数、10万亿+多模态Token训练量及20倍推理加速技术,重新定义AI对物理世界的理解与生成能力。

行业现状:从“模块拼接”到“原生统一”

当前主流多模态模型多采用“LLM+视觉模块”拼接架构,存在模态割裂、推理效率低等问题。2025年,谷歌Genie 3、Meta CWM等模型虽推动世界建模探索,但均未实现端到端统一。Emu3.5通过原生多模态自回归架构,首次验证“Next-State Prediction”范式的可行性,标志AI从“数字内容生成”迈向“物理世界模拟”。

核心亮点:三大技术突破重构多模态能力

1. 790年长视频炼就“世界理解力”

Emu3.5在累计790年时长的视频数据(含连续帧与转录文本)上预训练,捕捉物体运动规律、因果关系等物理世界知识。例如,用户指令“第一视角参观火星基地”时,模型能动态生成空间一致的漫游画面,模拟真实物理空间的视觉连续性。

2. DiDA技术实现20倍推理加速

传统自回归模型生成图像需逐个Token计算,耗时长达分钟级。Emu3.5创新的离散扩散适配(DiDA)技术,将序列生成转为并行双向预测,在保持生成质量的前提下,单图推理速度提升20倍,达到商业化落地要求。

3. 全能创作与具身指导能力

图片展示Emu3.5模型的图像编辑功能,左侧文本要求去除手写标注,右侧对比呈现含手写标注的输入文档与去除标注后的输出文档,体现其精准消除手写痕迹的能力。

如上图所示,Emu3.5可精准执行“消除手写痕迹”等高难度编辑任务,保留文档格式与内容完整性。这一能力得益于其统一多模态架构,无需专用编辑模块即可理解文本与图像的深层关联。

该模型支持长时序图文生成(如分步骤教程、连贯故事绘本)、任意到图像(X2I)转换(草图→设计稿、老照片修复),甚至能生成机器人操作步骤,为具身智能提供“虚拟教练”。

行业影响:从内容创作到具身智能的全场景变革

1. 内容生产效率跃升

设计师可通过自然语言指令完成从草图到成品的全流程创作,如将“未来城市简笔画”转化为2K分辨率渲染图。测试显示,Emu3.5在文本渲染准确率上超越Gemini 2.5 Flash Image,尤其擅长生成含复杂公式、多语言文字的图像。

2. 具身智能突破数据瓶颈

图片包含两个部分,(a)展示Emu3.5与Qwen-Image/Edit、GPT-Image-1等模型在图像生成和编辑基准测试(如LongText-Bench、ImgEdit等)的对比柱状图,(b)呈现Emu3.5在不同任务上相对于Nano Banana的胜率饼图。

从图中可以看出,Emu3.5在世界探索、具身操作等任务上胜率显著领先竞品。智源研究院院长王仲远表示,该模型让人形机器人从“预设场景执行”升级为“泛化环境适应”,例如生成“松灵机械臂整理桌面”的12步操作指南,为机器人提供仿真训练数据。

行业趋势:多模态Scaling范式确立

Emu3.5验证了“预训练+多模态强化学习”的Scaling路径:通过10万亿Token预训练奠定基础能力,再经RL优化推理与生成质量。这一路线复用LLM成熟基建,为后续模型迭代提供清晰方法论。开源后,开发者可基于其34B参数版本,探索游戏开发、虚拟导览、工业仿真等场景。

结论:AI从“理解”到“行动”的转折点

Emu3.5不仅是技术突破,更标志AI从“被动响应”转向“主动预测”。其开源特性(仓库地址:https://gitcode.com/BAAI/Emu3.5-Image)将加速多模态技术普及,推动智能交互、具身机器人等领域从概念走向落地。未来,随着视频数据规模与模型参数量的进一步Scaling,AI对物理世界的模拟能力或将接近人类直觉水平。

图片展示了智源研究院举办“悟界·Emu系列技术交流会”的现场,台上人员讲解Emu3.5多模态世界大模型相关内容,台下听众专注聆听并记录,体现科技发布会的场景。

如上图所示,Emu3.5的发布引发行业广泛关注。这一技术突破不仅彰显中国在AI原生创新领域的实力,更为通用人工智能提供了“理解世界—预测变化—指导行动”的完整实践路径。对于开发者与企业而言,抓住多模态世界模型机遇,将成为下一波AI应用革新的关键。

【免费下载链接】Emu3.5-Image 【免费下载链接】Emu3.5-Image 项目地址: https://ai.gitcode.com/BAAI/Emu3.5-Image

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐