苹果AI爆炸全宇宙！ -linpxing-博客-中药材

浏览次数: 640

【导读】万众瞩目的WWDC24上，苹果果然用AI把iPhone全部重塑。重磅登场的Apple Intelligence，让苹果全系产品有了史诗级升级。Siri被全面重塑，自由穿梭于系统中。AI大牛Karpathy对此狂赞，然而马斯克却彻底怒了，下令全员禁用苹果！

苹果说到做到，一夜间，iPhone果然被AI重塑！

长达一个半小时的WWDC大会，主题就是AI、AI、AI——

从iPhone、iPad到Mac，无不被生成式AI覆盖。横空出世的Apple Intelligence，让苹果全系产品有了史诗级升级。

现在的整个苹果全家桶，都会用上GPT-4o，Siri还能随时召唤ChatGPT。

硅谷各家大科技公司的大模型发展得如火如荼，苹果能做什么？库克的这句话揭示了答案——「LLM等AI突破，让我们有机会把苹果产品的体验推向新的高度」。

你们做模型，我们做产品，的确是苹果一贯擅长的赛道。

而且，对于大家普遍担忧的安全问题，苹果也有解：通过苹果强大的自研芯片，普通大模型在设备端运行，太大的大模型就放到云端。

而苹果专门打造的私密云计算技术，也保障了我们的隐私和安全，我们的数据就连苹果都无法访问。

被Apple Intelligence加持的Siri，也彻底改头换面，全面逼近苹果让它「自由穿梭于系统中，随时听我们调遣」的愿景。

此外，除了Vision OS的重大更新之外，库克的这个消息也让中国用户激动不已：Vision Pro将于6月28日登录中国市场，本周五开始接受预定，价格29999元起！

网友：苹果AI满足了我的所有想象

有中国网友评论说：太牛了，Apple Intelligence真的满足了自己对AI在设备上的所有想象，不愧是苹果。

以前是Artifical Intelligence，如今就是Apple Intelligence了。

对于iPadOS 18的数学笔记功能，很多人都表示这太狂野了！

关于计算器应用终于登录iPad这一史无前例的事件，网友们表示万分激动。

OpenAI创始成员，AI大牛Karpathy对于苹果的这次更新也称赞不已：「我们正在进入一个打开手机就可以说话的世界。它可以和你对话，而且它认识你。这实在太令人兴奋了！」

Karpathy总结了这次苹果发布会的几大主题：多模态输入/输出、智能体、无摩擦、主动、分级售授权、模块化、隐私

还有人给这次苹果的所有更新做出了一张bingo游戏图。

Apple Intelligence：不仅个人化，而且懂你

苹果的目标，就是为全球10亿用户构建强大的个人化产品。

而近期生成式AI和LLM的发展，直接给苹果产品使用体验的全新升级带来了可能。

苹果对于产品的核心原则是：足够强大，在最要紧的事上都能帮到用户；直观易用；深度整合到产品的使用体验中；它必须足够「懂你」，以你的个人情境为基础；而且，还要注重保护隐私。

如果这些原则都能满足，那它绝不仅仅是AI了，而是一种「个人化智能」。

而符合全部这些条件的Apple Intelligence，就在昨晚闪亮登场了！

为了这一刻，苹果已经准备了许久

这个全新的个人化智能系统，能让我们手中的个人化产品更实用、更称心。

市场上已有的AI聊天工具虽然好，但有一个通病：很少充分了解用户，因而也不理解我们的需求。

而苹果，要改变这一切。Apple Intelligence，会让即将到来的iOS 18、iPadOS 18和macOS Sequoia，彻底脱胎换骨！

Apple Intelligence，将强大的生成式模型置于iPhone、iPad和Mac的核心，能够根据我们所处的个人情境，来提供协助，而且深度整合在了所有的APP中。

能力

Apple Intelligence，可以让我们的iPhone、iPad和Mac理解、生成语言和图像，还能代替我们跨多个app交互，简化操作过程。

它最亮眼的地方，就在于理解我们的「个人情境」。

自然语言

Apple Intelligence中内置的LLM，能深刻理解自然语言。

比如，iPhone可以为通知设定优先次序，从而为我们减少不必要的干扰，同时又能不错过重要的信息。

它还会驱动一个全系统适用的全新书写工具，让我们写起东西来更从容。

它能帮我们重写、校对，还能提取文字摘要。

在它的帮助下，我们无论是写文章、发帖，还是提炼想法分享给他人，过程都会无比丝滑（甚至还能帮我们检查要发在网上的评论）。

同时，它还自动支持邮件、备忘录、Safari浏览器、Pages、Keynote，甚至第三方APP。

图像

Apple Intelligence还包含多种图像功能，从照片、表情符号到动图。

甚至，它还能让我们完全自创图像，让我们的日常对话更有趣。

更有趣的是，因为它认得我们照片图库中的人物，我们可以把他们的图像个性化，用到对话中。

比如，给朋友送上生日祝福时，我们可以生成ta的图像，用蛋糕、气球和花朵点缀起来。

生成的图像，有素描、插图、动画三种风格可选。

更让人惊喜的是，这些功能在系统中所有app都可用，包括Notes，Freeform，Keynote，Pages等等。

跨app操作

Apple Intelligence的另一个特点，就是还能跨app操作，这无疑会带来深远的影响。

它所需工具的各种资源，就在我们自己的口袋中——这些常用的app里。

苹果设计的Apple Intelligence，能随时取用这些工具，代我们执行各种操作。

我们可以直接向它开口：「调出上周Joz发给我的文件」，或者「给我看看所有妈妈、Olivia和我的照片」「播放前几天我太太发给我的播客」等等。

Apple Intelligence，会实现数百种此类操作。

个人情境

顾名思义，个人化智能最关键的要素之一，就是要深刻理解我们的个人情境。

而Apple Intelligence的运作，正是基于我们的个人信息都和情境之上的。

它能从我们的各种app中，检索和分析相关程度最高的数据，还能参考我们屏幕上的内容，比如我们正在查看的邮件，或者日历日程。

在日常生活中，这个功能可太有用了！

比如，我有一场会议改到了傍晚，我想知道开完这场会后，是否还能赶上女儿的演出，直接问Apple Intelligence就可以了。

因为它知道我女儿是谁，她几天前发来的演出详情，我这场会议的时间地点，甚至还能预估我从公司到剧院的交通情况。

架构

这个个人化智能系统的基石，就是设备端处理。

要实现这项功能，就离不开苹果软硬件整合，以及强大的芯片。

提供支持的芯片，包括A17 Pro，以及M系列芯片，它们为Apple Intelligence提供了坚实的算力基础。

它内置了设备端的语义索引，可以整理和提炼各种app中的信息。

我们提出请求，Apple Intelligence就会同通过语义索引，识别相关个人数据，然后传给模型，让它们根据个人情境更好地协助你。

这个过程中用到的大多数模型，都能在设备端运行。

然而有的模型，会大到无法放进随身携带的设备，怎么办？

答案就是——服务器。

不过这里依然有一个问题，在传统的做法中，服务器会储存我们的数据，在我们不知情的情况下使用这些数据。我们却无法对之验证，因为服务器软件只有所有者才能访问。

而苹果的做法，彻底断绝了这种可能！

我们能全权掌控自己的数据，包括在哪里储存、谁能访问。当iPhone上的隐私和安全保护功能扩展到云端，我们就能解锁更多智能功能了。

为此，苹果打造了私密云计算技术。

它不仅能扩展自身的计算能力，还能引入更大的基于服务器的模型，来处理更复杂的请求。

而我们的隐私也会得到保护，因为我们的数据绝不会被存储，连苹果都无法访问。

体验

Apple Intelligence强大的语言理解功能将落地为写作助手（Writing Tool）。

作为操作系统的内置AI，写作助手不仅可以用在手机自带的短信或邮件中，也同样支持所有需要输入的第三方应用。

邮件中有了自带的校对功能，可以一键查看修改建议，并能直接看到所有词语的释义。

写邮件时，再也不需要一遍遍复制粘贴到其他应用的界面了，苹果一夜之间就抢了Grammarly的看家生意。

不仅是文本校对，Writing Tool也同样提供多样化的改写功能。

它可以同时在文中生成多个改写版本供你选择，也能随时回滚到原始版。

此外，用户还能和Writing Tool进行个性化交互，定制自己的改写需求，比如改变文体、文风、语气等等。

想要发一封有文采的邀请函？Writing Tool可以瞬间帮你把现有的平常文字改写成一首诗。

或者一键在友好、专业、简洁等三种文风间切换，丝滑适应不同身份的收件人。

谷歌都有了网页内容的摘要，苹果又怎么能落下。这不邮件的摘要功能就出来了，拯救所有不想读长邮件的打工人。

邮件太多懒得回？Writing Tool也帮你想好了对策。

Smart Reply功能可以自动理解邮件的上下文内容，并自动为你生成一堆选择题。

只需要点击几下选出自己的答案，就能生成一份智能回复，连打字都省了。

Siri

13年前，Siri首次问世，作为曾经首屈一指的智能语音助手曾经掀起巨大热度。

如今，繁忙的Siri每天需要处理15亿次语音请求。而它离苹果「自由穿梭于系统中，随时听我们调遣」的愿景，也更近了一步！

在Apple Intelligence的加持下，Siri变得更自然、更贴合语境了，因此也变得更加贴合我们。

如今当我们和Siri对话时，它和系统的整合会更深入。当它运行时，优雅的光晕会环绕着屏幕边缘。

我们和Siri的对话也可以更自然，因为它能理解更丰富的语言。即使说话不连贯，它都能理解我们的意思。

比如问它：明天缪尔海滩是什么天气，不对，是缪尔森林。

它会清晰地理解你的意思，并且给出正确的回答。

即使我们在提问中停顿，思考一番，Siri依然能跟上我们。

在对话中，Siri还能联系上下文。比如我们接着上面说「创建日历日程，明天上午9点去那里徒步」，它立马正确地理解「那里」指的是哪里，完成了指令。

如果我们不想跟Siri大声说话，现在可以直接给它打字了。

只要在屏幕下方快速轻点两下，就能让Siri快速设好闹钟，整个过程悄无声息。

跟Siri交流的过程中，我们可以在文字和语音中随时切换。

而且，现在Siri掌握了大量关于功能和设置的信息，能回答数千个问题，关于如何在iPad或Mac上进行操作。

即使我们不知道某项功能的确切名称，只需要口头描述一番，Siri就能帮我们找到了！

比如直接问它：「我想现在就写好信息，然后明天发送，该怎么做？」

Siri完全明白我们说的是哪个功能，还提供了分步说明。

Apple Intelligence还会为Siri带来屏幕内容感知功能，这样，它就能理解屏幕上的内容，执行相应的操作。

比如朋友发消息告诉你ta的新地址，你可以直接在信息对话中说，「把这个地址加入ta的联系人名片中」。

当然，Siri也可以完成跨app操作。

比如我们可以说：「让我看看Stacey在纽约穿着粉色大衣的照片」，Siri就会把它们找出来，然后还能按照我们的指令开始修图。

然后，我们还可以让Siri把这张照片加到备忘录中Stacey的简介里，它就会从照片app跳转到备忘录app中，来完成操作。

这些增强功能，也并不限于苹果开发的APP。

比如，我们可以让Siri用Moment的Pro Camera，来拍摄光轨的视频。

也可以让Siri把我们备忘录里的会议摘要，分享到我们在Superhuman中给大家写的邮件里。

下面的这个功能，就更酷炫了！

通过为照片、日历日程、文件等创建语义索引，再加上往来消息和邮件的信息，比如预定酒店、音乐会门票的PDF文件、朋友分享的链接等，Siri能发现和理解的内容范围，将远超以往。

如果我们忘了资料是在邮件、信息还是在共享备忘录里，Siri都能解决。比如我们需要找到朋友之前推荐的书单，或者是填表时需要驾照号码。

假如我们打算去机场接妈妈，Siri能直接帮我们规划时间。

它能同时参考妈妈在邮件里写的航班详情，以及航班的实时动态，为我们提供最新的到达时间。

而在和妈妈的闲聊中，她提到过中午订了餐厅，我们就可以直接问Siri去那家餐厅需要多久，完全不必在邮件、信息和地图中跳来跳去了！

如苹果所说，今年将成为Siri新纪元的起点。

苹果「全家桶」用上GPT-4o

以上所展示的苹果AI能力，仅是一个「起点」。它能够以极为独特的方式理解你、尊重你、支持你。

未来，苹果还将带来超多的实用功能，比如备忘录中的录音和转写功能。

它能够帮你更详细地记下笔记，专心听讲，完全可以替代GoodNotes、Notability这类的学习工具。

录音/转写完成后，苹果AI还能帮你总结摘要，扫一眼便能抓住要点。

与此同时，录音/转写和苹果AI结合的能力，同样适用于电话应用。

当你实时通话的时候，开启录音，所有的参与者都将会收到通知，并且通话结束后苹果AI也会生成一段摘要。

Siri召唤ChatGPT

对于一些非常有用的外部AI工具，比如擅长处理某些需要广博知识，或者专业特长的任务，苹果直接将其模型纳入体验之中，而无需来回切换工具。

当然，这个工具就是行业的翘楚、市场的开拓者和领头羊—— ChatGPT。

苹果AI将用上全新的GPT-4o能力。

首先，Siri可以借助ChatGPT的专长，随时为我们所用。

比如，你想用刚钓的鱼，和自家种的菜为朋友准备一顿丰盛的大餐时，可以找Siri给些灵感。

Siri便会问你，是否召唤ChatGPT，然后直接为你呈上最丰富的答案。

而且，问问题时，你还可以上传一张照片。比如，询问如何家装的建议，拍张照片然后问「这个露台种什么植物好看」？

Siri会首先确认是否会向ChatGPT分享照片，然后才会为你找寻点子，整个过程完全就是一气呵成。

除了照片，你还可以询问关于文档、演示文稿，或者PDF中的相关问题。

另外，苹果AI还借用了ChatGPT的编写能力，将其融入所有系统中适用的书写任务中。

假设你想为擅长解谜的6岁女儿写一个睡前故事，初步构想是「她来到了梦幻的蝴蝶童话王国。她和一只毛毛虫成为了好友，并帮它克服重重困难，最终变成了一只蝴蝶」。

只见，ChatGPT不一会儿功夫完成了一个Annie喜欢的小故事。

甚至，你还可以选中所有内容，让ChatGPT为其生成一副插画。

以上所有能力，无需注册ChatGPT，便可免费使用。

对于那些订阅ChatGPT的用户们，也可以关联自己的账号，可以在使用苹果AI过程中接入付费的能力。

不过，苹果再三强调，我们的请求和个人信息不会被记录。何时使用ChatGPT，都是你说了算，再分享任何信息之前，都会征求用户的许可。

ChatGPT也将集成到这次所有更新的iOS 18、iPadOS 18、macOS Sequoia系统中，并在今年晚些时候推出。

未来，其他先进的AI模型的能力，也会集成到苹果AI之中。

不出所料，苹果AI能力仅限在iPhone15级别的手机上使用，不过对于iPad、MacBook还比较友好些，能够兼容M1芯片及以上的硬件。

马老板怒了，禁止全员使用苹果

ChatGPT在苹果全家桶中无缝集成能力虽炫酷，却遭到的全网非议。

最先反对的就是马老板！

他连发多篇帖子，对ChatGPT上机苹果表示不满，甚至扬言禁止公司所有成员使用苹果的设备。

我不想要这个能力。这就如同间谍软件一般，如果你们不阻止，我的公司将禁止使用任何苹果设备。

另外，马斯克还单独发帖子称：

「对于公司的外部来访者，都必须在门口将他们的设备放在「法拉第笼」（Faraday cage）中」。

苹果没有能力开发AI，却能够确保OpenAI会保护你的安全和隐私。一旦苹果将你的数据交给OpenAI，他们就不知道OpenAI究竟会如何处理这些数据，他们实际上是在出卖你的隐私权。

也有众多网友对苹果的这项能力，产生了质疑。

一位网友从底层架构图中得出，Siri可以读取手机上的所有数据（适用于选择加入的应用程序）。

一家AI初创的CEO表示，

老实说，我真不理解苹果为什么要把任何东西发送给ChatGPT？这太怪异了。为什么不直接让Meta授权，然后自己部署400B的Llama模？从70B开始也可以呀…

他们口口声声强调隐私和安全，甚至声称你不应该相信任何人！结果他们却来了个180度大转弯——是的，我们正在把你的数据发送给ChatGPT。

还有人配上梗图讽刺道，「当奥特曼已耗尽100%互联网训练数据时，看到十亿部手机时」。

苹果AI背后模型训练过程揭秘

发布会之外，苹果还发布了一篇关于介绍苹果AI能力实现背后的基础模型的文章。

博客介绍道，苹果AI是由「多个」强大的生成式AI模型组成，这些模型专用于日常任务，并根据当前活动实时调整。

他们强调，内置的基础模型针对用户体验进行了微调，比如编写和提炼文本、对通知优先排序汇总等等。

接下来，苹果详细介绍了两个经过微调建模的模型：

一是，可以运行在终端设备中的30一参数模型。

另一个是，更大的基于苹果芯片加持云服务器的基础模型，可用于私有云计算。

其他模型还包括，用于编码的XCode，扩散模型（帮助用户如在Messages应用中，以视觉方式表达自我）。

预训练

苹果的基础模型，是在2023年发布的开源项目AXLearn框架之上训练的。

AXLearn建立在JAX和XLA之上，可以在各种训练硬件和云平台上高效、可扩展地训练模型，包括TPU和云端及本地GPU。

另外，苹果研究团队还采用了数据并行、张量并行、序列并行和全分片数据并行（FSDP）等组合方式，从数据、模型和序列长度等多个维度来扩展训练规模。

至于数据的选用，苹果表示自己用的是授权的数据训练基础模型。

其中包括两种数据来源：一是经过精心选择，目的是提升模型的特定功能；二是，苹果网络爬虫AppleBot工具从网上公开采集的数据。

后训练

苹果团队意识到，数据质量对于模型的成功，至关重要。

因此，他们在训练过程中，采用了「混合数据策略」，即结合使用人工标注和AI生成数据，并进行了彻底的数据筛选和处理。

具体来说，研究团队在模型「后训练」阶段，开发了两种全新的算法：

(1) 拒绝抽样的微调算法，使用多个教师模型作为参考，对模型输出进行过过滤和微调

(2) 人类反馈强化学习算法，结合使用了镜像下降策略优化，以及留一法优势估计器（leave-one-out advantage estimator）新技术。

结果发现，这两种算法可以显著提升模型指令跟随的质量。

优化

另外，苹果还采用了一系列创新技术，在设备端和私有云上优化模型的速度和效率。

他们对第一个token推理和扩展token推理的性能都进行了大量的优化。

无论是设备端模型还是服务器端模型，都采用了「分组查询注意力机制」（grouped-query-attention）。

苹果还使用了共享的输入和输出词表，以减少内存需求和推理成本。这些共享的嵌入张量在映射时不会产生重复。

设备端模型的词表大小为49k token，而服务器端模型的词表大小为100k token。

对于设备内推理，他们还是用了「低比特量化」（low-bit palletization）的技术，能满足所需的内存、功耗和性能要求。

为了保持模型输出质量，研究团队开发了一种新框架——使用LoRA adapter，并采用了混合2位和4位的配置策略，平均每个权重占3.5位——从而达到与未压缩模型相同的精度水平。

此外，他们还使用了一种名为「Talaria」模型，可以对模型的延迟和功耗进行交互式分析，更好地指导在不同操作中选择合适的量化精度。

苹果基础模型还采用了激活值量化和嵌入量化技术，并且开发了一种在苹果神经网络引擎上高效更新键值缓存的方法。

值得一提的是，通过以上优化，iPhone 15 Pro可实现每个提示token首次输出的延迟约为0.6毫秒，生成速率为每秒30个token。

这一性能实现，并未采用token猜测技术，如若开启，速度将会更近一步提升。

模型自适应

苹果基础模型针对用户日常任务进行了微调，并且能够根据实时任务完成动态化适应。

这一过程实现，是借助适配器，即一些可以插入到预训练模型各层的小型神经网络模块，对模型进行特定任务的微调。

通过调整适配器中注意力相关的参数和前馈网络的参数，可以让整个LLM的行为专门化到特定任务上。

性能与评估

针对总结功能的评估中，苹果与微软Phi-3-mini小模型进行了对比。

可以看得出，不论是在邮件、还是通知中，苹果设备端30亿参数的模型在「优秀」和「差」的生成中更占优势。

苹果还将自家模型，与开源模型（Phi-3、Gemma、Mistral、DBRX）和商业模型（GPT-3.5-Turbo、GPT-4-Turbo）进行了比较。

结果发现，人类评估者更倾向于苹果模型输出的结果。

在这个基准测试中，30亿参数设备端模型的表现甚至超过了更大的模型，如Phi-3-mini、Mistral-7B和Gemma-7B。

而服务器端模型在性能上，甚至可与DBRX-Instruct、Mixtral-8x22B和GPT-3.5-Turbo相媲美，同时效率极高。

对于模型输出危害评估，苹果模型比率最低，说明输出有毒内容较少。

与此同时，苹果模型在安全提示的评估中，设备端模型完全碾压Phi-3-mini、Mistral-7B，服务端模型打败了DBRX-Instruct、Mixtral-8x22B。

在指令跟随（IFEval）基准上，与其他模型相比，苹果模型展现出了强大的能力。

最后一个是写作基准，终端上的苹果基础模型，是性能最优的。在服务器端，作文方面的能力还是不如GPT-4 Turbo。

二代VisionOS更新，苹果头显月底登陆中国

据上次发布Vision Pro和Vision OS刚刚过去4个月，苹果就又在WWDC上宣布了Vision OS的重大更新。

而且，还有让中国用户更加激动的消息——

库克在发布会上正式官宣，Vision Pro 将于6月28日登陆中国市场，将于本周五（6月14日）开始接受预定，国行价格为29999元起。

Vision Pro中的照片App集成了空间计算技术，戴上就可以浏览「3D」照片，让你有走进照片、「重现过去」的感觉。

最新的iPhone 15 Pro和Max的后置镜头已经可以拍摄空间影像，苹果也和佳能合作为专业照相机开发了空间镜头。

那以前拍摄的传统平面照片呢？

自然也不能落下。Vision Pro集成的机器学习模型，可以将照片从单视角变为双眼视角，还能添加图像深度，瞬间2D变3D。

之前的Vision Pro已经可以和Mac集成，苹果这次决定升级Vision中的虚拟屏幕，同时提高分辨率和屏幕宽度。

今年的更新后，一个Vision Pro相当于电脑的两个4k外接屏幕，动态注视点技术让你无论从哪个角度看屏幕都无比清晰。

而且，这个虚拟屏可以随时打开，比如「旅行模式」可以让你在飞机上随时大屏追剧或私密办公。

Vision Pro想要变得越来越好用，让以上这些功能走入现实，不能少了开发者的App和创作者的优质内容。

目前已经有超过2000个专门为Vision Pro开发App，以及其他1.5万个兼容VisionPro的手机或平板应用。

这次Vision Pro的更新也包括了各种服务于开发者的API：

– 3D空间内的多任务处理器Volumetric（可以说是Vision Pro上的Stage Manager）

– 让应用锚定在各种平面上的TableTopKit

– Enterprise API让企业可以定制各种复杂应用

比如使用TableTopKit开发棋牌游戏，让棋盘锚定在桌面上，加上显示在空间中的FaceTime的头像，下棋的体验就更加沉浸式了。

去年Vision Pro发布了Apple Immersive Video，经过今年的再次更新，苹果始终萎靡不振的内容产业很可能要翻盘了。

现在它的手里掌握着各路流媒体都不具有的空间影像技术。180度视角的8k视频加上高品质的音效，达到了甚至超越3D影院的逼真体验。

而且这次的发布非常垂直，打包了3D空间视频的全产业链。

对于业余爱好者，拍摄可以用iPhone或与苹果合作的佳能相机，剪辑可以用Mac自带的Final Cut Pro，观看可以用Vision OS中的Vimeo。

在专业创作领域，苹果和创意视频公司Black Magic Design合作，从摄像机到剪辑、后期软件全覆盖，今年晚些时候就会发布。

此外，苹果还和多方合作，制作原创的Apple Immersive Video并发布在Apple TV中。

合作方在内容领域都是大名鼎鼎，包括顶级歌手The Weekend、奥斯卡奖导演Edward Berger，以及与红牛制作的极限运动系列。

参考资料：

https://developer.apple.com/videos/play/wwdc2024/101/

https://machinelearning.apple.com/research/introducing-apple-foundation-models

苹果AI爆炸全宇宙！

于2024年7月4日由wagnwu发布

能力

架构

体验