揭秘！47页文档拆解苹果智能，从架构、数据到训练和优化

机器之心报道机器之心编辑部在 2024 年全球开发者大会上，苹果重磅推出了 Apple Intell

机器心脏报告

机器之心编辑部

在2024年全球开发者大会上，苹果推出了Apple Intelligence，这是一个全新的个性化智能系统，可以提供实用的智能服务，覆盖iPhone、iPad和Mac，并深度集成在iOS 18、iPadOS 18和macOS Sequoia中。

库克曾表示，Apple Intelligence是苹果创新的新篇章，将改变用户使用产品的方式。他强调，苹果独特的做法将生成式人工智能与用户的个人信息结合起来，提供真正有用的智能服务。此外，Apple Intelligence 提供完全私密且安全的信息访问，帮助用户完成对他们来说最重要的事情。这是苹果独有的AI体验。

如今，距离苹果智能正式发布已经过去一个多月了。这项技术终于落地智能设备，相关技术文档也终于发布。

在过去的一天里，拥有iPhone 15 Pro或iPhone 15 Pro Max的用户可以下载iOS 18.1开发测试版并体验Apple Intelligence的功能。

通过这份长达47页的技术报告的发布，我们可以更深入地了解Apple Intelligence背后的秘密。

c75084ab551a431fa311e6080de12c21~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=Clfgofvg%2F2J9d6ccNluRtzpTJAU%3D 举报地址：https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf

该报告详细介绍了其中两个型号：——AFM-on-device。 AFM 代表Apple Foundation Model，这是一个拥有约30 亿个参数的语言模型，AFM-server 是一个更大的基于服务器的语言模型，可以高效、准确和负责任。执行专门任务（图1）。

这两个基本模型是Apple 更大的生成模型系列的一部分。

79d1d497ee76493299c10ea01efad55a~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=Q0i2uMQGr4VllhsyF7sjfUVob8g%3D 建筑与培训

AFM基本模型是基于Transformer架构构建的密集解码器模型，采用以下设计：

共享输入/输出嵌入矩阵以减少参数的内存使用。

使用RMSNorm进行预归一化，提高训练稳定性。

查询/密钥标准化以提高训练稳定性。

具有8 个键值标头的分组查询注意(GQA)，可减少KV 缓存内存占用。

激活SwiGLU 以提高效率。

RoPE位置嵌入，基频设置为500k以支持长上下文。

c5c5e6b1883e4a2b86ad95174a1719a8~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=c41TzJpScztLYWHHCf7uSEI0wA0%3D AFM 预训练过程在开发高性能语言模型以支持一系列Apple Intelligence 功能方面发挥着关键作用。研究团队专注于效率和数据质量，以实现高质量的端到端用户体验。

在后期训练方面，研究团队发现，改进一般后期训练可以提高所有Apple Intelligence 功能的性能，因为模型在遵循指令、推理和写作方面变得更加有能力。

为了确保这些模型功能符合Apple 对保护用户隐私的承诺以及Apple Responsible AI 原则，训练后工作包括一系列数据收集和生成、指令调整和对齐创新。训练后过程由两个阶段组成：监督微调（SFT）和来自人类反馈的强化学习（RLHF）。研究团队提出了两种新的训练后算法：（1）带有教师委员会（iTeC）的拒绝采样微调算法，以及（2）带有镜像下降策略优化的强化学习迭代的RLHF 算法）和留一优势估计器（MDLOO），显着提高了模型质量。

苹果智能功能

基本型号专为Apple Intelligence 设计，这是一种为iPhone、iPad 和Mac 提供支持的个人智能系统。

苹果发现，他们可以通过针对特定任务进行微调，将小型模型的性能提高到同类最佳水平。此外，他们还开发了一种基于运行时可交换适配器的架构，以支持单一基本模型。能够专门从事数十项此类任务。图2 显示了高级概述。

4b0c69768dd744bd881d86bf983485aa~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=MC%2B%2FNStZXeJQwXfnM3UMtFGH%2Bkk%3D 适配器架构

Apple 使用LoRA 适配器针对特定任务微调模型。对于每个任务，我们调整AFM 自注意力层中的所有线性投影矩阵和逐点前馈网络中的全连接层。通过简单地微调适配器，基本预训练模型的原始参数保持不变，从而可以保留模型的一般知识，同时定制适配器以支持特定任务。

量化

为了将AFM 整合到内存预算有限的边缘设备中并降低推理成本，需要考虑量化技术。先前的研究发现，与原始32/16 位浮点相比，4 位量化模型的损失较小。

为了实现模型容量和推理性能之间的最佳平衡，Apple 开发了最先进的量化方法和利用准确性恢复适配器的框架。这使得模型在每个权重的平均权重小于4位时实现近乎无损的量化，并提供灵活的量化方案选择。

方法

训练后，模型被压缩和量化，导致权重平均低于4 位。定量模型通常表现出适度的质量损失。因此，苹果不会直接使用量化模型进行功能开发，而是附加一组参数高效的LoRA 适配器进行质量恢复。

值得注意的是，训练精度恢复适配器具有样本效率，可以被视为训练基础模型的迷你版本。在适配器的预训练阶段，仅需要约100亿个代币（约占基础模型训练的0.15%）即可完全恢复量化模型的能力。

由于应用程序适配器将从这些精度恢复适配器中进行微调，因此它们不会产生任何额外的内存使用或推理成本。关于适配器大小，Apple 发现16 级适配器提供了模型容量和推理性能之间的最佳权衡。

不过，为了灵活性，Apple 提供了一组不同等级{8、16、32} 的精度恢复适配器供应用团队选择。

混合精度量化

AFM 中的每个变压器块和每个层都存在剩余连接。因此，所有层不太可能具有同等重要性。遵循这一直觉，Apple 通过推动某些层使用2 位量化（默认为4 位）来进一步减少内存使用量。平均而言，AFM-on-device 只能压缩至约3.5 位/权重(bpw)，而不会造成明显的质量损失。

评价

研究团队使用常见的开源评估工具和基准来评估AFM 预训练模型。表2 显示了HELM MMLU v1.5.0 上的AFM-on-device 和AFM-server 的结果。

8301512662f9433fa9212bcf66fa45d7~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=bjT1suiVg7NWSho1vsIHsGyfP90%3D 这些基准测试表明，AFM预训练模型具有强大的语言和推理能力，为后期训练和特征微调提供了坚实的基础。

424f005b9275407caa6170f953cee8c1~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=9nbUTw135aAjB%2FEuYV4iB4MlERA%3D 660fe1491f804380a97c2d33f551e292~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=D8VkdcPbePpyGdwyPrOg%2FK62AIk%3D AFM与开源模型（Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct）和商业模型（GPT3.5和GPT-4）的对比结果如图3所示以下。与其他模型相比，AFM 模型更受人类评估者的青睐。特别是，尽管模型尺寸小了25%，但与Phi-3-mini 相比，AFM-on-device 仍取得了47.7% 的胜率，甚至优于开源强基线Gemma-7B 和Mistral-7B。

41f83539d02240f5b222592d8e904941~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=jKJKRNdIpRRHbNEZnWd7cyayZOc%3D 为了衡量模型按照提示中的说明生成响应的能力，研究团队在IFEval 基准上评估了AFM-on-device 和AFM-server，结果如下图4 所示：

6beb11f5d41d4b869da8f34c9e2b691e~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=IRtwKHMfljxuF%2BqqB4mavqk49uM%3D 如图5所示，AFM-server实现了最佳的整体精度，优于Gemini-1.5-Pro-Preview-0514和GPT-4。

aacb55d4191b4a65b9029e484412ca63~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=xB%2FSVUDei1Am%2FI5SowRru8xcSxg%3D Apple 将AFM 与一些最好的模型以及较小的开源模型进行了比较。如图6 所示，与Gemma-7B 和Mistral-7B 相比，AFM-on-device 可以实现相当或更好的性能。 AFM-server的性能明显优于DBRX-Instruct和GPT3.5，与GPT4相当。

ac77e42a355640ad877801a55549d14d~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=ISLJD0aKFizRcWLk5AfY3gyO3g0%3D 图7 比较了经过训练的AFM 在数学基准上的性能。研究发现，AFM-on-device 的性能明显优于Mistral-7B 和Gemma-7B，尽管其尺寸还不到它们的一半。

ea235bd6f7db4ec5a11ff121e02345e3~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=uImscI9oqWfpxkNP3ReMXBH8H2Y%3D 下图显示了人工评估者在摘要任务中评估AFM 设备适配器、Phi-3-mini、Llama-3-8B 和Gemma-7B 的质量。图8 显示AFM-on-device-adapter 通常优于其他模型。

ea0529a6f7574f0eb3633fe4ef40e9b2~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=koBN0HS%2FHxKMDfHt%2BNUu%2Fcjaliw%3D 负责任的人工智能

Apple Intelligence 的开发和设计充分考虑了用户隐私。

图9 总结了人工评估者在不同模型上给出的违规率，越低越好。 AFM-on-device 和AFM-server 对于对抗性提示都具有鲁棒性，其违规率明显低于开源和商业模型。

09ee6cb02ff5417da92d8cbe3bdc82ca~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=5VwMHhYLe9Rde%2F0CvMhK1twNHNU%3D 图10 显示，与其他模型相比，人类评估者更喜欢AFM 模型。

0b110742ce13401790d68d2ce22cb9cf~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1723078500&x-signature=%2FvoYqXhCtGADU8wD%2FJC4sc8wBLM%3D

{{userData.name}}已认证

揭秘！47页文档拆解苹果智能，从架构、数据到训练和优化

演技派by千帆过尽演技派千帆过尽番外哪里看

“高级感ins文案短句，总有一句适合你的状态”

{{userData.name}}已认证

演技派by千帆过尽 演技派千帆过尽番外哪里看

“高级感ins文案短句，总有一句适合你的状态”

演技派by千帆过尽演技派千帆过尽番外哪里看