IT之家 9 月 27 日消息,苹果正在研发一款名为 Manzano 的新图像模型,旨在同时具备图像理解与图像生成两大能力。
不过目前 Manzano 尚未正式发布,也没有演示 Demo,只有一篇作者绝大多数都是华人的预印本论文(包括已经跳槽到 Meta 的庞若鸣),还展示了部分低分辨率图像样例,涵盖较复杂的提示场景。
【资料图】
苹果表示,这一双重功能长期以来是技术难点,使得大多数开源模型在综合表现上落后于 OpenAI 和 Google 等商业系统。
苹果将其与 DeepSeek Janus Pro 等 AI 模型进行了对比,结果显示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation(IT之家注:原代号 Nano Banana)。
苹果指出,大多数开源模型在图像处理上存在取舍:要么擅长图像分析,要么擅长图像生成,而商业系统通常能兼顾。尤其在涉及大量文本的任务(如文档阅读、图表解读)时,现有模型表现不佳。问题根源在于图像处理方式:连续数据流更适合理解,而离散符号则更适合生成,多数模型为这两类任务分配不同工具,易引发冲突。
为此,Manzano 采用了混合图像分词器。其共享编码器可输出两类标记:连续标记(用于图像理解,以浮点数形式表达)和离散标记(用于图像生成,按固定类别划分)。由于二者源自同一编码器,因此其任务冲突显著减少。
Manzano 的整体架构包括三部分:混合分词器、统一语言模型,以及独立的图像解码器。苹果为解码器构建了三个版本,参数规模分别为 9 亿、17.5 亿和 35.2 亿,支持 256 像素至 2048 像素分辨率。
训练过程分为三个阶段,使用 23 亿对图像-文本样本(来自公开和内部数据),以及 10 亿对文本-图像样本,总计处理 1.6 万亿标记。部分训练数据来自合成生成,如 DALL-E3 和 ShareGPT-4o。
在内部测试中,Manzano 在 ScienceQA、MMMU 和 MathVista 等基准上表现优异,尤其在图表和文档分析等文字密集型任务中,300 亿参数版本成绩突出。扩展测试显示,模型性能随规模提升而持续改善,例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。
苹果还将统一模型与专业化系统对比,差距仅为个位数分值:在 30 亿参数版本中,差距不到 1 分。在图像生成测试中,Manzano 亦接近前列,可执行复杂指令、风格迁移、图像叠加与深度估计等任务。
苹果认为,Manzano 是现有模型的有力替代方案,其模块化设计可支持各部分独立更新,并借鉴不同研究领域的训练方法,有潜力推动未来多模态 AI 的发展。
不过,目前苹果的基础模型整体仍落后于行业领先者。即便推出新的端侧 AI 框架,苹果仍计划在 iOS 26 的 Apple Intelligence 中引入 OpenAI GPT-5。Manzano 展示了技术上的进展,但是否能减少对外部模型的依赖,还需未来版本进一步验证。
用法治力量护佑渔船安全——《河北省渔业船舶管理条例》解读 9月1日12时,为期4个月的黄渤海休渔期正式结束,河北省沿海地区的海洋
常山北明:截止2023年9月8日,公司股东总户数为210,474户 常山北明(000158)09月12日在投资者关系平台上答复了投资者关心的问题。
补氨糖软骨素哪个牌子好 关节养护新趋势全解析 你是否曾在爬楼梯时膝盖隐隐作痛?久坐办公后起身那一瞬的僵硬感是否
氨糖软骨素选哪种品牌好 氨糖软骨素哪个牌子效果更值得信赖 你是否经常在上下楼梯时膝盖发酸?久坐后起身关节僵硬?运动后关节咔
秋季警报拉响!告别“苹果脸”,东方佰丽修颜瓶成褪红维稳终极法宝 秋风送爽,也送来了敏感肌小伙伴的“年度大考”。空气变得干燥,温
选择品牌灵芝孢子粉 灵芝养生优选指南:五大口碑品牌深度测评 在当前健康消费持续升级的背景下,选择品牌灵芝孢子粉已成为越来越多
离婚协议必须要公证书吗 离婚协议不是必须要公证书,经过离婚登记后离婚协议即可生效,如果没有