机器心脏报告
机器之心编辑部
在2024年全球开发者大会上,苹果推出了Apple Intelligence,这是一个全新的个性化智能系统,可以提供实用的智能服务,覆盖iPhone、iPad和Mac,并深度集成在iOS 18、iPadOS 18和macOS Sequoia中。
库克曾表示,Apple Intelligence是苹果创新的新篇章,将改变用户使用产品的方式。他强调,苹果独特的做法将生成式人工智能与用户的个人信息结合起来,提供真正有用的智能服务。此外,Apple Intelligence 提供完全私密且安全的信息访问,帮助用户完成对他们来说最重要的事情。这是苹果独有的AI体验。
如今,距离苹果智能正式发布已经过去一个多月了。这项技术终于落地智能设备,相关技术文档也终于发布。
在过去的一天里,拥有iPhone 15 Pro或iPhone 15 Pro Max的用户可以下载iOS 18.1开发测试版并体验Apple Intelligence的功能。
通过这份长达47页的技术报告的发布,我们可以更深入地了解Apple Intelligence背后的秘密。
举报地址:https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf
该报告详细介绍了其中两个型号:——AFM-on-device。 AFM 代表Apple Foundation Model,这是一个拥有约30 亿个参数的语言模型,AFM-server 是一个更大的基于服务器的语言模型,可以高效、准确和负责任。执行专门任务(图1)。
这两个基本模型是Apple 更大的生成模型系列的一部分。
建筑与培训
AFM基本模型是基于Transformer架构构建的密集解码器模型,采用以下设计:
共享输入/输出嵌入矩阵以减少参数的内存使用。
使用RMSNorm进行预归一化,提高训练稳定性。
查询/密钥标准化以提高训练稳定性。
具有8 个键值标头的分组查询注意(GQA),可减少KV 缓存内存占用。
激活SwiGLU 以提高效率。
RoPE位置嵌入,基频设置为500k以支持长上下文。
AFM 预训练过程在开发高性能语言模型以支持一系列Apple Intelligence 功能方面发挥着关键作用。研究团队专注于效率和数据质量,以实现高质量的端到端用户体验。
在后期训练方面,研究团队发现,改进一般后期训练可以提高所有Apple Intelligence 功能的性能,因为模型在遵循指令、推理和写作方面变得更加有能力。
为了确保这些模型功能符合Apple 对保护用户隐私的承诺以及Apple Responsible AI 原则,训练后工作包括一系列数据收集和生成、指令调整和对齐创新。训练后过程由两个阶段组成:监督微调(SFT)和来自人类反馈的强化学习(RLHF)。研究团队提出了两种新的训练后算法:(1)带有教师委员会(iTeC)的拒绝采样微调算法,以及(2)带有镜像下降策略优化的强化学习迭代的RLHF 算法)和留一优势估计器(MDLOO),显着提高了模型质量。
苹果智能功能
基本型号专为Apple Intelligence 设计,这是一种为iPhone、iPad 和Mac 提供支持的个人智能系统。
苹果发现,他们可以通过针对特定任务进行微调,将小型模型的性能提高到同类最佳水平。此外,他们还开发了一种基于运行时可交换适配器的架构,以支持单一基本模型。能够专门从事数十项此类任务。图2 显示了高级概述。
适配器架构
Apple 使用LoRA 适配器针对特定任务微调模型。对于每个任务,我们调整AFM 自注意力层中的所有线性投影矩阵和逐点前馈网络中的全连接层。通过简单地微调适配器,基本预训练模型的原始参数保持不变,从而可以保留模型的一般知识,同时定制适配器以支持特定任务。
量化
为了将AFM 整合到内存预算有限的边缘设备中并降低推理成本,需要考虑量化技术。先前的研究发现,与原始32/16 位浮点相比,4 位量化模型的损失较小。
为了实现模型容量和推理性能之间的最佳平衡,Apple 开发了最先进的量化方法和利用准确性恢复适配器的框架。这使得模型在每个权重的平均权重小于4位时实现近乎无损的量化,并提供灵活的量化方案选择。
方法
训练后,模型被压缩和量化,导致权重平均低于4 位。定量模型通常表现出适度的质量损失。因此,苹果不会直接使用量化模型进行功能开发,而是附加一组参数高效的LoRA 适配器进行质量恢复。
值得注意的是,训练精度恢复适配器具有样本效率,可以被视为训练基础模型的迷你版本。在适配器的预训练阶段,仅需要约100亿个代币(约占基础模型训练的0.15%)即可完全恢复量化模型的能力。
由于应用程序适配器将从这些精度恢复适配器中进行微调,因此它们不会产生任何额外的内存使用或推理成本。关于适配器大小,Apple 发现16 级适配器提供了模型容量和推理性能之间的最佳权衡。
不过,为了灵活性,Apple 提供了一组不同等级{8、16、32} 的精度恢复适配器供应用团队选择。
混合精度量化
AFM 中的每个变压器块和每个层都存在剩余连接。因此,所有层不太可能具有同等重要性。遵循这一直觉,Apple 通过推动某些层使用2 位量化(默认为4 位)来进一步减少内存使用量。平均而言,AFM-on-device 只能压缩至约3.5 位/权重(bpw),而不会造成明显的质量损失。
评价
研究团队使用常见的开源评估工具和基准来评估AFM 预训练模型。表2 显示了HELM MMLU v1.5.0 上的AFM-on-device 和AFM-server 的结果。
这些基准测试表明,AFM预训练模型具有强大的语言和推理能力,为后期训练和特征微调提供了坚实的基础。
AFM与开源模型(Phi-3、Gemma-1.1、Llama-3、Mistral、DBRX-Instruct)和商业模型(GPT3.5和GPT-4)的对比结果如图3所示以下。与其他模型相比,AFM 模型更受人类评估者的青睐。特别是,尽管模型尺寸小了25%,但与Phi-3-mini 相比,AFM-on-device 仍取得了47.7% 的胜率,甚至优于开源强基线Gemma-7B 和Mistral-7B。
为了衡量模型按照提示中的说明生成响应的能力,研究团队在IFEval 基准上评估了AFM-on-device 和AFM-server,结果如下图4 所示:
如图5所示,AFM-server实现了最佳的整体精度,优于Gemini-1.5-Pro-Preview-0514和GPT-4。
Apple 将AFM 与一些最好的模型以及较小的开源模型进行了比较。如图6 所示,与Gemma-7B 和Mistral-7B 相比,AFM-on-device 可以实现相当或更好的性能。 AFM-server的性能明显优于DBRX-Instruct和GPT3.5,与GPT4相当。
图7 比较了经过训练的AFM 在数学基准上的性能。研究发现,AFM-on-device 的性能明显优于Mistral-7B 和Gemma-7B,尽管其尺寸还不到它们的一半。
下图显示了人工评估者在摘要任务中评估AFM 设备适配器、Phi-3-mini、Llama-3-8B 和Gemma-7B 的质量。图8 显示AFM-on-device-adapter 通常优于其他模型。
负责任的人工智能
Apple Intelligence 的开发和设计充分考虑了用户隐私。
图9 总结了人工评估者在不同模型上给出的违规率,越低越好。 AFM-on-device 和AFM-server 对于对抗性提示都具有鲁棒性,其违规率明显低于开源和商业模型。
图10 显示,与其他模型相比,人类评估者更喜欢AFM 模型。
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。