文章来源:08AI导航网发布时间:2025-03-18 11:07:53
以下文章来自于丨机器之心
刚刚宣布放弃造车项目的苹果公司,在当今的人工智能(AI)竞赛中落伍了。为了摆脱窘境,苹果近期放弃了造车项目,正在全面转向生成式AI领域,并且很快有了新动作,推出了一款被命名为「MM1」的多模态大模型。
从去年底开始,苹果已经加大了生成式 AI 的重视和投入。此前在 2024 苹果股东大会上,苹果 CEO 库克表示,今年将在生成式 AI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向 AI 业务。
如此种种,苹果向外界传达了加注生成式 AI 的决心。目前多模态领域的生成式 AI 技术和产品非常火爆,尤以 OpenAI 的 Sora 为代表,苹果当然也想要在该领域有所建树。
今日,在一篇由多位作者署名的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 30B 参数的多模态 LLM 系列。
该团队在论文中探讨了不同架构组件和数据选择的重要性。并且,通过对图像编码器、视觉语言连接器和各种预训练数据的选择,他们总结出了几条关键的设计准则。具体来讲,本文的贡献主要体现在以下几个方面。
首先,研究者在模型架构决策和预训练数据选择上进行小规模消融实验,并发现了几个有趣的趋势。建模设计方面的重要性按以下顺序排列:图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据。
其次,研究者使用三种不同类型的预训练数据:图像字幕、交错图像文本和纯文本数据。他们发现,当涉及少样本和纯文本性能时,交错和纯文本训练数据非常重要,而对于零样本性能,字幕数据最重要。这些趋势在监督微调(SFT)之后仍然存在,这表明预训练期间呈现出的性能和建模决策在微调后得以保留。
最后,研究者构建了 MM1,一个参数最高可达 300 亿(其他为 30 亿、70 亿)的多模态模型系列, 它由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现 SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。
具体来讲,预训练模型 MM1 在少样本设置下的字幕和问答任务上,要比 Emu2、Flamingo、IDEFICS 表现更好。监督微调后的 MM1 也在 12 个多模态基准上的结果也颇有竞争力。
得益于大规模多模态预训练,MM1 在上下文预测、多图像和思维链推理等方面具有不错的表现。同样,MM1 在指令调优后展现出了强大的少样本学习能力。
相关攻略 更多
苹果首个多模态大模型MM1曝光:论文上线,300亿参数规模、支持图像内容解读、MoE架构
马斯克突然开源Grok:3140亿参数巨无霸,免费可商用
Sora视频大模型训练数据被质疑非法采集,OpenAI CTO接受外媒专访面对敏感提问表现大翻车
外媒曝:苹果公司正在与谷歌、OpenAI洽谈合作,为了让iPhone尽快用上最好的AI大模型
英伟达发布AI算力芯片B200丨高通发布第三代骁龙8s处理器丨李开复:目前最好的大模型已达人类平均IQ的三倍
面对Sora训练数据来源一问三不知!OpenAI遭遇成立以来最为惨烈的公关灾难
重磅!英伟达正式官宣「AI核弹级」芯片B100,性能比H100强两倍的H200将于2024年第二季度出货
李开复:最好的AI大模型已经达到人类平均智商的三倍,“杀手级应用”已经出现
最新资讯 更多
苹果首个多模态大模型MM1曝光:论文上线,300亿参数规模、支持图像内容解读、MoE架构
更新时间:2025-03-18
马斯克突然开源Grok:3140亿参数巨无霸,免费可商用
更新时间:2025-03-18
Sora视频大模型训练数据被质疑非法采集,OpenAI CTO接受外媒专访面对敏感提问表现大翻车
更新时间:2025-03-18
外媒曝:苹果公司正在与谷歌、OpenAI洽谈合作,为了让iPhone尽快用上最好的AI大模型
更新时间:2025-03-18
英伟达发布AI算力芯片B200丨高通发布第三代骁龙8s处理器丨李开复:目前最好的大模型已达人类平均IQ的三倍
更新时间:2025-03-18
面对Sora训练数据来源一问三不知!OpenAI遭遇成立以来最为惨烈的公关灾难
更新时间:2025-03-18
重磅!英伟达正式官宣「AI核弹级」芯片B100,性能比H100强两倍的H200将于2024年第二季度出货
更新时间:2025-03-17
李开复:最好的AI大模型已经达到人类平均智商的三倍,“杀手级应用”已经出现
更新时间:2025-03-17
OpenAI CEO奥特曼最新讲话汇总,再次曝光GPT-5细节:性能飞跃超乎想象,低估它的人都会被吓傻
更新时间:2025-03-17
英伟达老黄祭出「超级核弹」B200芯片:相当于30倍的H100,单机可训练15个GPT-4模型参数总和
更新时间:2025-03-17