苹果AI新iOS上线首日就火了：聊天秒变情商高手，大模型变身最强代言人，Siri大变身！

苹果公司的最新力作Apple Intelligence终于揭开神秘面纱，与广大苹果爱好者见面了！

iOS 18.1 Beta版的推出，让注册开发者们有机会一窥苹果AI的风采。其中最引人注目的更新莫过于Siri的全面升级，它已不再是简单的语音助手，而是变身为Apple Intelligence & Siri，带来了全新的交互体验。

此外，写作功能的升级同样令人瞩目。它不仅能帮助用户润色社交媒体上的评论，还能迅速将粗俗语言转化为文雅表达，让交流更加得体。

开启Apple Intelligence后，苹果自研的大型端侧模型将被下载到用户设备中。根据一些尝鲜用户的反馈，它的表现与其他AI服务不同，不会频繁出现服务拒绝的情况。

与此同时，苹果还发布了一份详尽的技术报告，披露了自家大模型的众多技术细节。报告中指出，在遵循指令、文本总结等任务上，苹果的云端大模型甚至超越了GPT-4的表现。

苹果基础大模型团队的负责人庞若鸣（Ruoming Pang）也表达了对自家模型的信心，认为其在某些方面与业界顶尖模型不相上下。庞若鸣博士毕业于普林斯顿大学，曾在谷歌担任工程师15年，并于2021年加入苹果，领导了Apple Intelligence的主要对话功能的研发。

他强调，这些基础模型并非简单的聊天机器人，而是支持摘要、写作辅助、工具使用和代码等多种功能。苹果还研发了多种自研算法，进一步提升了模型的性能，这些信息也在报告中得到了披露。

一些细心的用户还发现了一个有趣的细节——苹果大模型的训练过程中并未使用英伟达的硬件，而是采用了谷歌的TPU集群。

Siri升级，但ChatGPT尚未集成

想要体验苹果的Apple Intelligence，用户需要满足一些条件。首先，iOS 18.1 Beta版目前仅对注册开发者开放，年费99美元，因此普通用户还需耐心等待。

此外，该功能目前仅支持搭载M系列和A17 Pro芯片的设备，也就是说，只有部分地区的iPhone 15 Pro和15 Pro Max能够使用。

用户还需要调整系统设置，将地区设置为美国，并将设备及Siri的语言更改为英语。满足所有这些条件后，用户就可以加入等待队列，体验Apple Intelligence的部分功能了。

此次上线的Apple Intelligence主要围绕文本生成、Siri和相册等模块。文本生成功能不仅限于苹果官方应用，第三方应用也能利用这一功能进行文本总结、校对和重写。

结合iOS 18 Beta版中新增的语音备忘录转录功能，文本生成系统还能为录音生成摘要。新版Siri在界面上进行了升级，提供了文本对话方式，双击屏幕底部即可调出键盘与Siri进行文字交流。

内容方面，新版Siri能够解答与苹果产品相关的问题，并帮助用户进行故障排除。它还能理解从一个查询到下一个查询的上下文，例如创建日历事件后请求创建提醒，无需重复说明。

相册功能也得到了更新，用户现在可以用自然语言搜索特定照片，甚至是视频中的具体时刻。

苹果大模型解密

苹果已经明确表示，ChatGPT在苹果AI中并非必须，主要功能由自家的大模型驱动。这个名为Apple Foundation Model（简称AFM）的模型，包括端侧和云侧两个版本，端侧模型参数量约为3B，云侧模型的具体参数量未透露，但已知两者都支持32k的上下文窗口。

训练过程未使用英伟达硬件

AFM模型的训练采用了苹果基于JAX的AXLearn框架，并运用了张量并行、流水并行等策略。硬件方面，苹果选择了谷歌TPU，云侧使用了8192颗TPUv4芯片，端侧则使用了2048颗TPUv5p芯片，完全没有使用英伟达的硬件。

数据来源主要是通过Applebot爬取的网页，以及有公共许可的代码和数学数据集。苹果选用的数据集均采用了开放程度更高的开源协议，如MIT、Apache、CC0等。

AFM的预训练过程分为三个阶段：核心训练、继续训练和上下文延长。核心训练阶段，云侧版本的数据量达到6.3T tokens，窗口长度为4096。端侧版本则是在此基础上进行蒸馏得到的。

继续训练阶段，低质量数据的权重被降低，同时使用数学、代码以及获得授权的高质量数据，进一步提升模型能力。这一阶段使用了1T tokens的数据，窗口长度也从4096增加到8192。

到了上下文延长阶段，窗口长度进一步扩展到32k，涉及长序列文本和合成数据，总量达到100B tokens。

独创的强化学习新算法

AFM的后训练包括指导监督微调（SFT）、人类反馈强化学习（RLHF）等。SFT阶段使用了合成数据与人类标注数据，主要关注数学、工具使用和代码。在RLHF阶段，苹果自创了iTeC和MDLOO两种强化学习算法。

iTeC，即“迭代教学委员会”，是一种用于强化学习后训练的算法，通过多轮迭代优化模型性能。其核心思想是结合不同的偏好优化算法，如拒绝采样、直接偏好优化（DPO），使模型能够从多种优化策略中受益。

在每次迭代中，iTeC会从最新的模型中选择一组表现最好的模型，形成一个“模型委员会”。这些模型经过SFT、RS、DPO/IPO和RL等不同训练方法得到。

通过收集人类对模型响应的偏好反馈，iTeC不断更新其奖励模型，并用于训练新的模型集合。每收集一批人类偏好数据后，iTeC会刷新其奖励模型，并训练新的模型集合，以此循环进行多轮迭代，逐步提升模型性能。

MDLOO是一种在线强化学习算法，特别设计用于优化模型的响应质量。作为在线算法，它能在模型训练过程中实时解码响应，并应用RL算法来最大化奖励。

具体实现上，MDLOO结合了留一法（Leave-One-Out，LOO）优势估计器和镜像下降策略优化（MDPO），以实现更稳定和有效的策略更新。

端侧混合精度量化

为了让端侧模型更高效运行，同时避免占用过多内存资源，苹果对AFM的端侧版本进行了量化操作。具体来说，苹果采用了混合精度的量化方式，针对不同环节采用了不同的量化精度。

苹果采用的“调色板”策略中，权重不是每个单独量化，而是将它们分组，并让组内的权重共享相同的量化常数。对于投影权重，每16列/行共享相同的量化常数，并使用K-means算法进行4位量化。

针对嵌入层，由于是输入和输出共享的，采用了8位整数进行每通道量化，另外还有某些重要性相对较低的层被进一步压缩到2位量化。

为了恢复量化后损失的性能，苹果还引入了准确性恢复适配器（Accuracy-Recovery Adapters）。这些小型的神经网络模块可以插入到预训练模型的特定层中，在量化模型的基础上进行训练，通过微调来学习如何补偿量化带来的影响。

部分任务超越GPT-4

应用了一系列优化技术之后，苹果对AFM的表现进行了评估。评估过程中，苹果采用了人类评估与自动化评估相结合的策略。

人工评估中，评估人员设计了多类问题，涵盖分析推理、头脑风暴、聊天机器人等方面，并让模型生成相应回答。同时，问题也会被提给用于对比的其他模型，然后由评估人员评判哪个模型的输出更好。

结果显示，无论是云侧还是端侧模型，都有至少60%的概率不输给Llama 3、GPT-4等对比模型。其余的测试主要利用数据集实现。

在指令遵循能力上，苹果进行了IFEval测试，结果在指令和prompt两个层次上，云侧AFM都超过了GPT-4，成为新的SOTA。端侧模型的表现也超过了Llama 3-8B、Mistral-7B等近似规模的模型。在AlpacaEval中，端侧和云侧AFM也都取得了第二名的成绩。

在写作类Benchmark的总结任务上，AFM取得了SOTA，撰写任务上也与第一名接近。数学方面，AFM在GSM8K上不敌Llama 3-8B和微软

Siri升级，但ChatGPT尚未集成

苹果大模型解密

训练过程未使用英伟达硬件

独创的强化学习新算法

端侧混合精度量化

部分任务超越GPT-4

微信扫一扫：分享

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复