北京智源人工智能研究院发布原生多模态世界模型Emu3 - VRAR星球

首页

资讯: 国内资讯; 国际资讯; 新闻日历; VR/AR游戏; 协会

深度: 产业锐评; 热点追踪; 维克多专栏; 万花筒; 人物专访; 百科; 测评

投融资: 融资月刊; 投融资新闻; 上市公司

政策: 政策新闻; 政策查询; 政策汇总

活动: 协会活动; 行业活动; 合作活动; 星球活动

视频: 评测; 专访; 现场

投融资: 融资月刊; 投融资新闻; 上市公司

政策: 政策新闻; 政策查询; 政策汇总

活动: 协会活动; 行业活动; 合作活动; 星球活动

视频: 评测; 专访; 现场

当前位置：首页资讯新闻日历

北京智源人工智能研究院发布原生多模态世界模型Emu3

发布日期：2024-10-23 13:35:56

字号：A+A-

编译 / VRAR星球 R星人

2024年10月21日，智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。

Emu3在图像生成、视频生成、视觉语言理解等任务中超过了 SDXL 、LLaVA、OpenSora等知名开源模型，但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术，只需要预测下一个token。

Emu3提供了一个强大的视觉tokenizer，能够将视频和图像转换为离散token。这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中。与此同时，该模型输出的离散token可以被转换为文本、图像和视频，为Any-to-Any的任务提供了更加统一的研究范式。而在此前，社区缺少这样的技术和模型。

此外，受益于Emu3下一个token预测框架的灵活性，直接偏好优化(DPO)可无缝应用于自回归视觉生成，使模型与人类偏好保持一致。

商务合作：13146398132 undefined

媒体合作：13341147250

爆料投稿：editor@vrarworld.cn

版权声明：本文为VRAR星球原创，任何单位及个人未经授权不得转载，否则将依法追究侵权责任。

如需转载请联系13341147250 / editor@vrarworld.cn 申请授权，转载时请注明来源并保留VRAR星球原文链接。

本文部分图片及视频来源于互联网，如涉及侵权请联系我们删除。

已赞 6

智源人工智能研究院人工智能 Emu3 多模态世界模型

相关推荐

AI情绪分析技术融合AR眼镜设备，将使每个人获得读心术

宋祖儿塌房，真情实感追星太难，虚拟偶像更靠谱？

腾讯参投人工智能初创公司Moonshot 3亿美元融资

元宇宙还要被发明几次？

工信部：推动体育器械与人工智能、虚拟现实等新技术融合创新

Meta计划在百思买推出新的弹出式窗口，统一展示人工智能眼镜和VR头显

出资额超600亿元！国家人工智能产业投资基金登记成立

2024世界人工智能大会开幕，展品超1500项

微软将OpenAI列入人工智能及搜索竞争对手名单

谷歌AR/VR负责人离职，将组建AI公司

发表评论（0）

热门资讯

今日七日本月

联系方式: 邮箱：info@vrarworld.cn
座机：010-58672009
客服：13146398132
地址：北京市朝阳区东三环南路58号富顿中心A座1215

关于我们

媒体矩阵

关注微信公众号
扫码添加客服

Copyright © VRAR星球版权所有京ICP备2021003882号-3 Design by 企术：网站建设