近日消息,NVIDIA研究团队公开了世界模型「SANA-WM」的论文。所谓世界模型,是指学习现实世界中的物理运动与深度信息、并以此为基础生成视频的AI模型。SANA-WM被定位为世界建模及具身AI(Embodied AI)研究的新基线。

该模型仅需输入一张静态图像和相机的移动路径,即可生成长达60秒、720p分辨率的视频。相机的运动可通过6自由度(6-DoF)进行控制——除了上下左右的平移,还可指定俯仰、偏航等旋转方向,从而输出如同在实际空间中移动拍摄的影像。
演示页面公开了雪山小径、水下遗迹、沙漠科幻废墟等多样化场景的示例视频。这些演示由26亿参数的基座模型与170亿参数的精炼器组合而成的两阶段流水线生成。
技术层面,SANA-WM在实现比现有开源模型高出36倍吞吐量的同时,达到了与LingBot-World、HY-WorldPlay等闭源产品同等的视频质量。训练过程使用了64块H100 GPU,耗时15天完成;标准推理在单块H100上即可运行。蒸馏版应用NVFP4量化后,即便在RTX 5090上也能在34秒内生成60秒的720p视频。
该模型采用Apache 2.0许可证,允许商业使用。论文已发布于arXiv,代码与模型即将公开,最新信息可关注GitHub上的NVlabs/Sana仓库。(新闻来源:moguravr、VRAR星球编译)
商务合作:13146398132
媒体合作:13341147250
爆料投稿:editor@vrarworld.cn
版权声明:本文为VRAR星球原创,任何单位及个人未经授权不得转载,否则将依法追究侵权责任。
如需转载请联系13341147250 / editor@vrarworld.cn 申请授权,转载时请注明来源并保留VRAR星球原文链接。
本文部分图片及视频来源于互联网,如涉及侵权请联系我们删除。

苹果发布全新AI技术HeadsUp,可利用多摄像头重建高度精确的3D头部模型

NVIDIA发布SANA-WM,可用单张图像生成一分钟的720p视频

莫界与珠海市残疾人联合会正式达成战略合作,以AI+AR技术点亮无障碍生活新未来

苹果发布全新AI技术HeadsUp,可利用多摄像头重建高度精确的3D头部模型

NVIDIA发布SANA-WM,可用单张图像生成一分钟的720p视频

Anduril展示了EagleEye的广角夜视成像技术

麻省理工学院新研究有望借助高端智能手机中的LiDAR传感器为XR领域带来新的应用

蒋奇明出任雷鸟眼镜品牌代言人,AI+AR双线新品将于5月27日亮相

莫界与珠海市残疾人联合会正式达成战略合作,以AI+AR技术点亮无障碍生活新未来

VR生存游戏《新石器时代:黎明》将于6月迎来自发售以来最大的一次更新

迷幻密室逃脱恐怖游戏《黑暗之旅》将推出Steam移植版,同时支持VR版本

中鼎天下制作出品《探秘千里江山图》LBE科技展亮相深圳文博会

苹果发布全新AI技术HeadsUp,可利用多摄像头重建高度精确的3D头部模型

NVIDIA发布SANA-WM,可用单张图像生成一分钟的720p视频

Anduril展示了EagleEye的广角夜视成像技术

麻省理工学院新研究有望借助高端智能手机中的LiDAR传感器为XR领域带来新的应用

蒋奇明出任雷鸟眼镜品牌代言人,AI+AR双线新品将于5月27日亮相

莫界与珠海市残疾人联合会正式达成战略合作,以AI+AR技术点亮无障碍生活新未来

VR生存游戏《新石器时代:黎明》将于6月迎来自发售以来最大的一次更新

迷幻密室逃脱恐怖游戏《黑暗之旅》将推出Steam移植版,同时支持VR版本

中鼎天下制作出品《探秘千里江山图》LBE科技展亮相深圳文博会