6.1 视频生成的长时序一致性:压缩、tokenizer 与因果/非因果设计

6.1.1 3D-VAE / MagViT-v2 的时空 tokenizer 设计

6.1.2 连续令牌化与渐进训练策略

6.2 运动控制与物理化世界模型

6.2.1 AnimateDiff、CameraCtrl:模块化控制器设计

6.2.2 生成式交互环境(GenIE):下一帧预测作为仿真

6.2.3 自回归 vs 扩散视频生成的工程比较

小结与建议实践要点

本章给出理论推导、系统设计与工程权衡,旨在为研究者在构建长时序视频生成系统与基于生成式世界模型的控制器时提供可操作的数学与工程指导。下一章将继续深入到“多模态世界模型与符号推理”的主题,探讨如何把视觉-语言-动作统一到同一潜空间并用于高层规划。

Logo

立足具身智能前沿赛道,致力于搭建全球化、开源化、全栈式技术交流与实践共创平台。

更多推荐