苹果探索自研多模态AI模型Manzano：兼具理解与生成能力

发布日期：2025-09-28 18:48:51

字号：A+A-

9 月 27 日消息，苹果正在研发一款名为 Manzano 的新图像模型，旨在同时具备图像理解与图像生成两大能力。

不过目前 Manzano 尚未正式发布，也没有演示 Demo，只有一篇作者绝大多数都是华人的预印本论文（包括已经跳槽到 Meta 的庞若鸣），还展示了部分低分辨率图像样例，涵盖较复杂的提示场景。

苹果表示，这一双重功能长期以来是技术难点，使得大多数开源模型在综合表现上落后于 OpenAI 和 Google 等商业系统。该公司将其与 DeepSeek Janus Pro 等 AI 模型进行了对比，结果显示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation（原代号 Nano Banana）。

苹果指出，大多数开源模型在图像处理上存在取舍：要么擅长图像分析，要么擅长图像生成，而商业系统通常能兼顾。尤其在涉及大量文本的任务（如文档阅读、图表解读）时，现有模型表现不佳。问题根源在于图像处理方式：连续数据流更适合理解，而离散符号则更适合生成，多数模型为这两类任务分配不同工具，易引发冲突。

为此，Manzano 采用了混合图像分词器。其共享编码器可输出两类标记：连续标记（用于图像理解，以浮点数形式表达）和离散标记（用于图像生成，按固定类别划分）。由于二者源自同一编码器，因此其任务冲突显著减少。

在内部测试中，Manzano 在 ScienceQA、MMMU 和 MathVista 等基准上表现优异，尤其在图表和文档分析等文字密集型任务中，300 亿参数版本成绩突出。扩展测试显示，模型性能随规模提升而持续改善，例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。（新闻来源：IT之家）

商务合作：13146398132 undefined