首页
资讯
深度
投融资
政策
活动
视频
当前模式 菜单关闭
我们能帮忙找点什么吗?

苹果探索自研多模态AI模型Manzano:兼具理解与生成能力

发布日期:2025-09-28 18:48:51
字号:A+A-

9 月 27 日消息,苹果正在研发一款名为 Manzano 的新图像模型,旨在同时具备图像理解与图像生成两大能力。

 

不过目前 Manzano 尚未正式发布,也没有演示 Demo,只有一篇作者绝大多数都是华人的预印本论文(包括已经跳槽到 Meta 的庞若鸣),还展示了部分低分辨率图像样例,涵盖较复杂的提示场景。

 

苹果表示,这一双重功能长期以来是技术难点,使得大多数开源模型在综合表现上落后于 OpenAI 和 Google 等商业系统。该公司将其与 DeepSeek Janus Pro 等 AI 模型进行了对比,结果显示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation(原代号 Nano Banana)。

 

 

苹果指出,大多数开源模型在图像处理上存在取舍:要么擅长图像分析,要么擅长图像生成,而商业系统通常能兼顾。尤其在涉及大量文本的任务(如文档阅读、图表解读)时,现有模型表现不佳。问题根源在于图像处理方式:连续数据流更适合理解,而离散符号则更适合生成,多数模型为这两类任务分配不同工具,易引发冲突。

 

为此,Manzano 采用了混合图像分词器。其共享编码器可输出两类标记:连续标记(用于图像理解,以浮点数形式表达)和离散标记(用于图像生成,按固定类别划分)。由于二者源自同一编码器,因此其任务冲突显著减少。

 

在内部测试中,Manzano 在 ScienceQA、MMMU 和 MathVista 等基准上表现优异,尤其在图表和文档分析等文字密集型任务中,300 亿参数版本成绩突出。扩展测试显示,模型性能随规模提升而持续改善,例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。(新闻来源:IT之家)


商务合作:13146398132undefined

媒体合作:13341147250

爆料投稿:editor@vrarworld.cn

版权声明:本文为VRAR星球原创,任何单位及个人未经授权不得转载,否则将依法追究侵权责任。

如需转载请联系13341147250 / editor@vrarworld.cn 申请授权,转载时请注明来源并保留VRAR星球原文链接。

本文部分图片及视频来源于互联网,如涉及侵权请联系我们删除。

发表评论(0