【视觉架构学:注意力、SSM 与生成模型的融合】第四部分 生成式视觉与世界模拟 第6章 视频生成与世界模型
本章给出理论推导、系统设计与工程权衡,旨在为研究者在构建长时序视频生成系统与基于生成式世界模型的控制器时提供可操作的数学与工程指导。下一章将继续深入到“多模态世界模型与符号推理”的主题,探讨如何把视觉-语言-动作统一到同一潜空间并用于高层规划。
·
6.1 视频生成的长时序一致性:压缩、tokenizer 与因果/非因果设计
6.1.1 3D-VAE / MagViT-v2 的时空 tokenizer 设计
6.1.2 连续令牌化与渐进训练策略
6.2 运动控制与物理化世界模型
6.2.1 AnimateDiff、CameraCtrl:模块化控制器设计
6.2.2 生成式交互环境(GenIE):下一帧预测作为仿真
6.2.3 自回归 vs 扩散视频生成的工程比较
小结与建议实践要点
本章给出理论推导、系统设计与工程权衡,旨在为研究者在构建长时序视频生成系统与基于生成式世界模型的控制器时提供可操作的数学与工程指导。下一章将继续深入到“多模态世界模型与符号推理”的主题,探讨如何把视觉-语言-动作统一到同一潜空间并用于高层规划。
更多推荐


所有评论(0)