NVIDIA发布SANA-WM，可用单张图像生成一分钟的720p视频

发布日期：2026-05-26 16:26:49

字号：A+A-

近日消息，NVIDIA研究团队公开了世界模型「SANA-WM」的论文。所谓世界模型，是指学习现实世界中的物理运动与深度信息、并以此为基础生成视频的AI模型。SANA-WM被定位为世界建模及具身AI（Embodied AI）研究的新基线。

该模型仅需输入一张静态图像和相机的移动路径，即可生成长达60秒、720p分辨率的视频。相机的运动可通过6自由度（6-DoF）进行控制——除了上下左右的平移，还可指定俯仰、偏航等旋转方向，从而输出如同在实际空间中移动拍摄的影像。

演示页面公开了雪山小径、水下遗迹、沙漠科幻废墟等多样化场景的示例视频。这些演示由26亿参数的基座模型与170亿参数的精炼器组合而成的两阶段流水线生成。

技术层面，SANA-WM在实现比现有开源模型高出36倍吞吐量的同时，达到了与LingBot-World、HY-WorldPlay等闭源产品同等的视频质量。训练过程使用了64块H100 GPU，耗时15天完成；标准推理在单块H100上即可运行。蒸馏版应用NVFP4量化后，即便在RTX 5090上也能在34秒内生成60秒的720p视频。

该模型采用Apache 2.0许可证，允许商业使用。论文已发布于arXiv，代码与模型即将公开，最新信息可关注GitHub上的NVlabs/Sana仓库。（新闻来源：moguravr、VRAR星球编译）

商务合作：13146398132 undefined