编译 / VRAR星球 R星人
8 月 28 日消息,腾讯混元今天午间宣布开源端到端视频音效生成模型 Hunyuan-Foley,用户只需输入视频和文字,就能为视频匹配电影级音效。
根据官方介绍,HunyuanVideo-Foley 不仅打破了 AI 生成的视频只能“看”不能“听” 的局限,让无声 AI 视频成为历史,更是真正做到了“看懂画面、读懂文字、配准声音”,带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。
据悉,混元团队开发了一个全面的数据处理管道,能够自动化标注和过滤收集的音视频数据,构建了约 10 万小时级的高质量 TV2A 数据集,为模型训练提供了强大支撑,使得模型拥有强大的泛化能力,能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频,包括音效与背景音乐。生成的音频能够与无声视频相结合,极大提升了视频的真实感和沉浸感。(新闻来源:IT之家)
商务合作:13146398132
媒体合作:13341147250
爆料投稿:editor@vrarworld.cn
版权声明:本文为VRAR星球原创,任何单位及个人未经授权不得转载,否则将依法追究侵权责任。
如需转载请联系13341147250 / editor@vrarworld.cn 申请授权,转载时请注明来源并保留VRAR星球原文链接。
本文部分图片及视频来源于互联网,如涉及侵权请联系我们删除。
影目科技全新一代 AI 智能眼镜 INMO GO3 发布仅 3 天,全渠道预订量超 20 万台
江西VR产业亮家底:营收超1100亿元
影目科技携手蚂蚁、腾讯应用宝、智谱等打造AI+AR生态
2025 砂之盒沉浸展 · 未来娱乐峰会圆满落幕,公众展映即将开启!
Optics Ventures宣布香港国际动漫展(Hong Kong Comic Con)
Shiftall收购Diver-X“ContactTrack”位置追踪技术业务
曜时空VR影乐园推出《云冈石窟VR沉浸展·石窟上的王朝》
首届文物保护利用大会借助裸眼3D、VR体验展示三星堆—金沙遗址珍贵文物
凯文·凯利:屏幕、电池、重量是AI眼镜未形成消费普及的三大技术瓶颈
JBD推出"Roadrunner"平台:2.5μm像素间距的Micro LED微显示器
29999元起 苹果发布2025款Vision Pro头显:首发M5芯片
利亚德:AR眼镜计划10月底前在官网和商城同步发售
VR新作《Reach》即将上线 沉浸式动作冒险体验来临!
Sandbox VR将于10月24日在萨克拉门托开设首家门店
纪录片《布达拉宫 时空解码》看片会在京举办,XR虚拟技术解锁未知布达拉宫
Shiftall发布超紧凑、超轻的VR头戴设备MeganeX 8K Mark II
协创数据:Dreamworld AI眼镜相关产品预计明年一季度启动量产
2025湾芯展开幕:光峰科技携2款LCoS AR光机亮相