首页
资讯
深度
投融资
政策
活动
视频
当前模式 菜单关闭
我们能帮忙找点什么吗?

NVIDIA发布SANA-WM,可用单张图像生成一分钟的720p视频

发布日期:2026-05-26 16:26:49
字号:A+A-

近日消息,NVIDIA研究团队公开了世界模型「SANA-WM」的论文。所谓世界模型,是指学习现实世界中的物理运动与深度信息、并以此为基础生成视频的AI模型。SANA-WM被定位为世界建模及具身AI(Embodied AI)研究的新基线。

 

 

该模型仅需输入一张静态图像和相机的移动路径,即可生成长达60秒、720p分辨率的视频。相机的运动可通过6自由度(6-DoF)进行控制——除了上下左右的平移,还可指定俯仰、偏航等旋转方向,从而输出如同在实际空间中移动拍摄的影像。

 

演示页面公开了雪山小径、水下遗迹、沙漠科幻废墟等多样化场景的示例视频。这些演示由26亿参数的基座模型与170亿参数的精炼器组合而成的两阶段流水线生成。

 

技术层面,SANA-WM在实现比现有开源模型高出36倍吞吐量的同时,达到了与LingBot-World、HY-WorldPlay等闭源产品同等的视频质量。训练过程使用了64块H100 GPU,耗时15天完成;标准推理在单块H100上即可运行。蒸馏版应用NVFP4量化后,即便在RTX 5090上也能在34秒内生成60秒的720p视频。

 

该模型采用Apache 2.0许可证,允许商业使用。论文已发布于arXiv,代码与模型即将公开,最新信息可关注GitHub上的NVlabs/Sana仓库。(新闻来源:moguravr、VRAR星球编译)


商务合作:13146398132undefined

媒体合作:13341147250

爆料投稿:editor@vrarworld.cn

版权声明:本文为VRAR星球原创,任何单位及个人未经授权不得转载,否则将依法追究侵权责任。

如需转载请联系13341147250 / editor@vrarworld.cn 申请授权,转载时请注明来源并保留VRAR星球原文链接。

本文部分图片及视频来源于互联网,如涉及侵权请联系我们删除。

发表评论(0
热门资讯