苹果公司的最新力作Apple Intelligence终于揭开神秘面纱,与广大苹果爱好者见面了!
iOS 18.1 Beta版的推出,让注册开发者们有机会一窥苹果AI的风采。其中最引人注目的更新莫过于Siri的全面升级,它已不再是简单的语音助手,而是变身为Apple Intelligence & Siri,带来了全新的交互体验。
此外,写作功能的升级同样令人瞩目。它不仅能帮助用户润色社交媒体上的评论,还能迅速将粗俗语言转化为文雅表达,让交流更加得体。
开启Apple Intelligence后,苹果自研的大型端侧模型将被下载到用户设备中。根据一些尝鲜用户的反馈,它的表现与其他AI服务不同,不会频繁出现服务拒绝的情况。
与此同时,苹果还发布了一份详尽的技术报告,披露了自家大模型的众多技术细节。报告中指出,在遵循指令、文本总结等任务上,苹果的云端大模型甚至超越了GPT-4的表现。
苹果基础大模型团队的负责人庞若鸣(Ruoming Pang)也表达了对自家模型的信心,认为其在某些方面与业界顶尖模型不相上下。庞若鸣博士毕业于普林斯顿大学,曾在谷歌担任工程师15年,并于2021年加入苹果,领导了Apple Intelligence的主要对话功能的研发。
他强调,这些基础模型并非简单的聊天机器人,而是支持摘要、写作辅助、工具使用和代码等多种功能。苹果还研发了多种自研算法,进一步提升了模型的性能,这些信息也在报告中得到了披露。
一些细心的用户还发现了一个有趣的细节——苹果大模型的训练过程中并未使用英伟达的硬件,而是采用了谷歌的TPU集群。
Siri升级,但ChatGPT尚未集成
想要体验苹果的Apple Intelligence,用户需要满足一些条件。首先,iOS 18.1 Beta版目前仅对注册开发者开放,年费99美元,因此普通用户还需耐心等待。
此外,该功能目前仅支持搭载M系列和A17 Pro芯片的设备,也就是说,只有部分地区的iPhone 15 Pro和15 Pro Max能够使用。
用户还需要调整系统设置,将地区设置为美国,并将设备及Siri的语言更改为英语。满足所有这些条件后,用户就可以加入等待队列,体验Apple Intelligence的部分功能了。
此次上线的Apple Intelligence主要围绕文本生成、Siri和相册等模块。文本生成功能不仅限于苹果官方应用,第三方应用也能利用这一功能进行文本总结、校对和重写。
结合iOS 18 Beta版中新增的语音备忘录转录功能,文本生成系统还能为录音生成摘要。新版Siri在界面上进行了升级,提供了文本对话方式,双击屏幕底部即可调出键盘与Siri进行文字交流。
内容方面,新版Siri能够解答与苹果产品相关的问题,并帮助用户进行故障排除。它还能理解从一个查询到下一个查询的上下文,例如创建日历事件后请求创建提醒,无需重复说明。
相册功能也得到了更新,用户现在可以用自然语言搜索特定照片,甚至是视频中的具体时刻。
苹果大模型解密
苹果已经明确表示,ChatGPT在苹果AI中并非必须,主要功能由自家的大模型驱动。这个名为Apple Foundation Model(简称AFM)的模型,包括端侧和云侧两个版本,端侧模型参数量约为3B,云侧模型的具体参数量未透露,但已知两者都支持32k的上下文窗口。
训练过程未使用英伟达硬件
AFM模型的训练采用了苹果基于JAX的AXLearn框架,并运用了张量并行、流水并行等策略。硬件方面,苹果选择了谷歌TPU,云侧使用了8192颗TPUv4芯片,端侧则使用了2048颗TPUv5p芯片,完全没有使用英伟达的硬件。
数据来源主要是通过Applebot爬取的网页,以及有公共许可的代码和数学数据集。苹果选用的数据集均采用了开放程度更高的开源协议,如MIT、Apache、CC0等。
AFM的预训练过程分为三个阶段:核心训练、继续训练和上下文延长。核心训练阶段,云侧版本的数据量达到6.3T tokens,窗口长度为4096。端侧版本则是在此基础上进行蒸馏得到的。
继续训练阶段,低质量数据的权重被降低,同时使用数学、代码以及获得授权的高质量数据,进一步提升模型能力。这一阶段使用了1T tokens的数据,窗口长度也从4096增加到8192。
到了上下文延长阶段,窗口长度进一步扩展到32k,涉及长序列文本和合成数据,总量达到100B tokens。
独创的强化学习新算法
AFM的后训练包括指导监督微调(SFT)、人类反馈强化学习(RLHF)等。SFT阶段使用了合成数据与人类标注数据,主要关注数学、工具使用和代码。在RLHF阶段,苹果自创了iTeC和MDLOO两种强化学习算法。
iTeC,即“迭代教学委员会”,是一种用于强化学习后训练的算法,通过多轮迭代优化模型性能。其核心思想是结合不同的偏好优化算法,如拒绝采样、直接偏好优化(DPO),使模型能够从多种优化策略中受益。
在每次迭代中,iTeC会从最新的模型中选择一组表现最好的模型,形成一个“模型委员会”。这些模型经过SFT、RS、DPO/IPO和RL等不同训练方法得到。
通过收集人类对模型响应的偏好反馈,iTeC不断更新其奖励模型,并用于训练新的模型集合。每收集一批人类偏好数据后,iTeC会刷新其奖励模型,并训练新的模型集合,以此循环进行多轮迭代,逐步提升模型性能。
MDLOO是一种在线强化学习算法,特别设计用于优化模型的响应质量。作为在线算法,它能在模型训练过程中实时解码响应,并应用RL算法来最大化奖励。
具体实现上,MDLOO结合了留一法(Leave-One-Out,LOO)优势估计器和镜像下降策略优化(MDPO),以实现更稳定和有效的策略更新。
端侧混合精度量化
为了让端侧模型更高效运行,同时避免占用过多内存资源,苹果对AFM的端侧版本进行了量化操作。具体来说,苹果采用了混合精度的量化方式,针对不同环节采用了不同的量化精度。
苹果采用的“调色板”策略中,权重不是每个单独量化,而是将它们分组,并让组内的权重共享相同的量化常数。对于投影权重,每16列/行共享相同的量化常数,并使用K-means算法进行4位量化。
针对嵌入层,由于是输入和输出共享的,采用了8位整数进行每通道量化,另外还有某些重要性相对较低的层被进一步压缩到2位量化。
为了恢复量化后损失的性能,苹果还引入了准确性恢复适配器(Accuracy-Recovery Adapters)。这些小型的神经网络模块可以插入到预训练模型的特定层中,在量化模型的基础上进行训练,通过微调来学习如何补偿量化带来的影响。
部分任务超越GPT-4
应用了一系列优化技术之后,苹果对AFM的表现进行了评估。评估过程中,苹果采用了人类评估与自动化评估相结合的策略。
人工评估中,评估人员设计了多类问题,涵盖分析推理、头脑风暴、聊天机器人等方面,并让模型生成相应回答。同时,问题也会被提给用于对比的其他模型,然后由评估人员评判哪个模型的输出更好。
结果显示,无论是云侧还是端侧模型,都有至少60%的概率不输给Llama 3、GPT-4等对比模型。其余的测试主要利用数据集实现。
在指令遵循能力上,苹果进行了IFEval测试,结果在指令和prompt两个层次上,云侧AFM都超过了GPT-4,成为新的SOTA。端侧模型的表现也超过了Llama 3-8B、Mistral-7B等近似规模的模型。在AlpacaEval中,端侧和云侧AFM也都取得了第二名的成绩。
在写作类Benchmark的总结任务上,AFM取得了SOTA,撰写任务上也与第一名接近。数学方面,AFM在GSM8K上不敌Llama 3-8B和微软