9 月 27 日消息,苹果正在研发一款名为 Manzano 的新图像模型,旨在同时具备图像理解与图像生成两大能力。
不过目前 Manzano 尚未正式发布,也没有演示 Demo,只有一篇作者绝大多数都是华人的预印本论文(包括已经跳槽到 Meta 的庞若鸣),还展示了部分低分辨率图像样例,涵盖较复杂的提示场景。
苹果表示,这一双重功能长期以来是技术难点,使得大多数开源模型在综合表现上落后于 OpenAI 和 Google 等商业系统。该公司将其与 DeepSeek Janus Pro 等 AI 模型进行了对比,结果显示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation(原代号 Nano Banana)。

苹果指出,大多数开源模型在图像处理上存在取舍:要么擅长图像分析,要么擅长图像生成,而商业系统通常能兼顾。尤其在涉及大量文本的任务(如文档阅读、图表解读)时,现有模型表现不佳。问题根源在于图像处理方式:连续数据流更适合理解,而离散符号则更适合生成,多数模型为这两类任务分配不同工具,易引发冲突。
为此,Manzano 采用了混合图像分词器。其共享编码器可输出两类标记:连续标记(用于图像理解,以浮点数形式表达)和离散标记(用于图像生成,按固定类别划分)。由于二者源自同一编码器,因此其任务冲突显著减少。
在内部测试中,Manzano 在 ScienceQA、MMMU 和 MathVista 等基准上表现优异,尤其在图表和文档分析等文字密集型任务中,300 亿参数版本成绩突出。扩展测试显示,模型性能随规模提升而持续改善,例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。(新闻来源:IT之家)
商务合作:13146398132
媒体合作:13341147250
爆料投稿:editor@vrarworld.cn
版权声明:本文为VRAR星球原创,任何单位及个人未经授权不得转载,否则将依法追究侵权责任。
如需转载请联系13341147250 / editor@vrarworld.cn 申请授权,转载时请注明来源并保留VRAR星球原文链接。
本文部分图片及视频来源于互联网,如涉及侵权请联系我们删除。

Monster Moon正式推出快节奏VR竞技场射击游戏《Marrow Marrow》

专注于虚拟主播业务的Brave E轮融资筹集超过80亿日元

大型VR射击游戏《Forefront》将于4月24日正式上线

妙音XR沉浸体验馆正式登陆邯郸万象汇

智能眼镜公司Innovative Eyewear公布一季度业绩,营收同比增长约78%

中国台湾公司奇景光电发布用于AR眼镜的高对比度LCoS微显示技术

夏普公司新推出的VR眼镜“Xrostella VR1”已启动众筹活动

豪鹏科技宣布完成对Rokid乐奇的战略投资

XR行业危机是否存在?深度采访小派科技、影目科技、西顾视频和大朋VR

Meta宣布重组Reality Labs硬件部门

Viture联合创始人:公司正计划推出“隐形”AI眼镜,与Meta展开竞争

洛图科技:2025年中国智能眼镜市场的销售量达145万台,同比增长211%

苹果为Vision Pro拍摄沉浸式视频时曾发生坠机事故,致探险家身亡

德国公司Brainjo获得200万欧元融资,作为VR心理健康技术研发启动资金

中动联合携手中国电信,打造Disney AI/XR文创标杆项目

王者荣耀X上海天文馆梦幻联动!《星海奇航:梦境救援》XR互动剧北影节正式官宣

法国公司Engo推出engo3 AR运动眼镜,配备彩色HUD,兼容Garmin和Apple Watch

支付宝宣布华为AI眼镜支持看一下支付3步搞定 承诺被盗即赔