9 月 27 日消息,苹果正在研发一款名为 Manzano 的新图像模型,旨在同时具备图像理解与图像生成两大能力。
不过目前 Manzano 尚未正式发布,也没有演示 Demo,只有一篇作者绝大多数都是华人的预印本论文(包括已经跳槽到 Meta 的庞若鸣),还展示了部分低分辨率图像样例,涵盖较复杂的提示场景。
苹果表示,这一双重功能长期以来是技术难点,使得大多数开源模型在综合表现上落后于 OpenAI 和 Google 等商业系统。该公司将其与 DeepSeek Janus Pro 等 AI 模型进行了对比,结果显示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation(原代号 Nano Banana)。
苹果指出,大多数开源模型在图像处理上存在取舍:要么擅长图像分析,要么擅长图像生成,而商业系统通常能兼顾。尤其在涉及大量文本的任务(如文档阅读、图表解读)时,现有模型表现不佳。问题根源在于图像处理方式:连续数据流更适合理解,而离散符号则更适合生成,多数模型为这两类任务分配不同工具,易引发冲突。
为此,Manzano 采用了混合图像分词器。其共享编码器可输出两类标记:连续标记(用于图像理解,以浮点数形式表达)和离散标记(用于图像生成,按固定类别划分)。由于二者源自同一编码器,因此其任务冲突显著减少。
在内部测试中,Manzano 在 ScienceQA、MMMU 和 MathVista 等基准上表现优异,尤其在图表和文档分析等文字密集型任务中,300 亿参数版本成绩突出。扩展测试显示,模型性能随规模提升而持续改善,例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。(新闻来源:IT之家)
商务合作:13146398132
媒体合作:13341147250
爆料投稿:editor@vrarworld.cn
版权声明:本文为VRAR星球原创,任何单位及个人未经授权不得转载,否则将依法追究侵权责任。
如需转载请联系13341147250 / editor@vrarworld.cn 申请授权,转载时请注明来源并保留VRAR星球原文链接。
本文部分图片及视频来源于互联网,如涉及侵权请联系我们删除。
鸿石智能公布Micro LED AR 眼镜新战略
Meta已将研发人形机器人提升至与AR同等重要的战略高度
淘宝Vision未来旗舰店上海首店开业,引入苹果Vision Pro虚拟体验小鹏汇天“飞行汽车”、小米SU7等产品
“时光门”VR大空间落户黄崖关,“十一”将开启“重走长征路”沉浸体验
苹果探索自研多模态AI模型Manzano:兼具理解与生成能力
Meta推出Vibes短视频应用,平台所有内容均为AI生成
「WooHooo無弧XR智能影院」全球首店开幕,线下消费新物种诞生
本土科技+影院联手,嘉兴VR影院亮相
瞄准下一代VR交互,影核首款手势识别VR游戏《光之大师》登陆PICO!
鸿石智能公布Micro LED AR 眼镜新战略
Meta已将研发人形机器人提升至与AR同等重要的战略高度
淘宝Vision未来旗舰店上海首店开业,引入苹果Vision Pro虚拟体验小鹏汇天“飞行汽车”、小米SU7等产品
“时光门”VR大空间落户黄崖关,“十一”将开启“重走长征路”沉浸体验
苹果探索自研多模态AI模型Manzano:兼具理解与生成能力
Meta推出Vibes短视频应用,平台所有内容均为AI生成
「WooHooo無弧XR智能影院」全球首店开幕,线下消费新物种诞生
本土科技+影院联手,嘉兴VR影院亮相
瞄准下一代VR交互,影核首款手势识别VR游戏《光之大师》登陆PICO!