浏览次数: 475

早在 5 月 11 日，Sam 就在推文中表示：OpenAI 并没有推出 GPT-5，或搜索引擎，但团队一直在努力研发一些认为大家会喜欢的新东西（感觉就像是魔法一样）！

现在来看应该说的就是 GPT-4o 了，它在免费和付费账户中均可使用（应该是目前最强的免费模型了）。除此之外，ChatGPT 页面也进行了许多细节方面的优化，并且推出了桌面应用，进一步提升用户体验。

GPT-4o

OpenAI 最新的旗舰模型，能够实时处理音频、视觉和文本。

GPT-4o（“o”代表“omni”）是 OpenAI 在实现更自然人机交互方面的重要进展（Hello GPT-4o^[1]）。它能够接受文本、音频和图像的任意组合输入，并生成相应的输出，包括文本、音频和图像。该模型在音频输入的响应时间非常短，最短可达 232 毫秒，平均为 320 毫秒，接近人类对话的反应时间。在文本（英语）和代码方面，GPT-4o 的表现与 GPT-4 Turbo 相当，但在处理非英语语言文本方面有显著提升，同时在 API 中的速度更快且成本降低 50%。此外，GPT-4o 在视觉和音频理解方面表现尤为出色。

在 GPT-4o 之前，使用语音模式与 ChatGPT 对话的平均延迟时间分别为 GPT-3.5 的 2.8 秒和 GPT-4 的 5.4 秒。实现这一功能的流水线涉及三个独立模型（音频 → 文本 → 音频）：一个用于将音频转录为文本，GPT-3.5 或 GPT-4 处理文本并生成文本，然后第三个模型将文本转换回音频。这种方式导致 GPT-4 无法直接感知语调、多位说话者或背景噪音，也无法生成笑声、歌唱或表达情感。

为了克服这些局限，OpenAI 训练了一个新的端到端跨文本、视觉和音频的单一模型（GPT-4o），这意味着所有输入和输出都由同一个神经网络处理。由于这是 OpenAI 第一个结合所有这些模态的模型，因此其功能和局限性仍在探索中。

它将首先在 ChatGPT 和 API 中作为文本和视觉模型提供（ChatGPT 将继续通过现有的语音模式功能支持语音）。具体来说，GPT-4o 将在 ChatGPT 免费版、Plus 版和团队版（企业版即将推出）以及 Chat Completions API、Assistants API 和 Batch API 中提供。

多模态交互

GPT-4o 展现了强大的多模态处理和交互能力，能够在多种情境下提供帮助和娱乐。它可以通过合作描述和记录事件，最终将整个过程编成歌曲。在教育方面，GPT-4o 可以帮助学生解答数学问题，提供逐步指导和鼓励。此外，GPT-4o 还可以教授其他语言学习（如中文、西班牙语），进行实时翻译，并作为语音客服处理客户服务请求。对于盲人，GPT-4o 可以充当“第三只眼”，帮助描述当前环境。

在娱乐和生活中，GPT-4o 可以在生日时唱生日歌，为新手父母讲故事，分享养宠物的乐趣，并在失眠时唱自编的轻柔摇篮曲。用户还可以调整 GPT-4o 的语速。在会议与社交中，GPT-4o 能在视频会议中充当助手，记录发言并总结要点；在朋友聚会中充当裁判；并根据需求提供赞美或讽刺。GPT-4o 还能猜测用户所处环境，帮助准备面试或相亲的穿着建议，并分饰两角演唱二重唱。通过这些功能，GPT-4o 展现了在多模态交互、教育、语言学习、生活娱乐和社交等方面的广泛应用潜力。

以上视频演示合集自 OpenAI，视频翻译由 @dotey 提供（仅供参考）。

GPT-4 Turbo vs. GPT-4o

GPT-4o 拥有相同的高智能性，但比 GPT-4 Turbo 更快、更便宜，且速率限制更高。具体来说：

价格：GPT-4o 比 GPT-4 Turbo 便宜 50%，输入每百万 tokens 收费 $5，输出每百万 tokens 收费 $15。
速率限制：GPT-4o 的速率限制是 GPT-4 Turbo 的 5 倍——每分钟最多 1000 万 tokens。
速度：GPT-4o 是 GPT-4 Turbo 的两倍快。
视觉：在视觉能力相关评估中，GPT-4o 的表现优于 GPT-4 Turbo。
多语言：GPT-4o 对非英语语言的支持优于 GPT-4 Turbo。

GPT-4o 目前有 128k 的上下文窗口，知识截止日期为 2023 年 10 月。

GPT-4o API

任何拥有 OpenAI API 帐户的人都可以使用 GPT-4o 模型，可以在 Chat Completions API^[2]、Assistants API^[3] 和 Batch API^[4] 中使用此模型。此模型还支持功能调用（function calling）和 JSON 模式。也可以通过 Playground^[5] 开始使用。

在成功支付 $5 或更多（使用级别 1）后，将能够通过 OpenAI API 访问 GPT-4、GPT-4 Turbo 和 GPT-4o 模型。

模型价格

GPT-4o 是 OpenAI 目前最先进的多模态模型，比 GPT-4 Turbo 更快、更便宜，并且具有更强的视觉能力。该模型支持 128K 的上下文窗口，知识截止日期为 2023 年 10 月。

GPT-4 Turbo 提供 128K 的上下文窗口，知识截止日期为 2023 年 4 月，并具备基本的视觉支持功能。

GPT-4 是 OpenAI 的原始 GPT-4 模型具备广泛的通用知识和领域专业知识。

Model	Input	Output
Modelgpt-4o	Input$5.00 / 1M tokens	Output$15.00 / 1M tokens
Modelgpt-4o-2024-05-13	Input$5.00 / 1M tokens	Output$15.00 / 1M tokens
Modelgpt-4-turbo	Input$10.00 / 1M tokens	Output$30.00 / 1M tokens
Modelgpt-4-turbo-2024-04-09	Input$10.00 / 1M tokens	Output$30.00 / 1M tokens
Modelgpt-4	Input$30.00 / 1M tokens	Output$60.00 / 1M tokens
Modelgpt-4-32k	Input$60.00 / 1M tokens	Output$120.00 / 1M tokens
Modelgpt-3.5-turbo-0125	Input$0.50 / 1M tokens	Output$1.50 / 1M tokens
Modelgpt-3.5-turbo-instruct	Input$1.50 / 1M tokens	Output$2.00 / 1M tokens

了解更多 API pricing^[6]。

GPT-4o 模型评估

GPT-4o 不仅在传统领域表现出色（在文本、推理和编码智能方面达到了 GPT-4 Turbo 的水平），还在多语言、音频和视觉能力方面设立了新的标杆。

推理能力

GPT-4o 在 0-shot COT MMLU（一般知识问题）上取得了 88.7% 的新高分。所有这些评估都是通过 OpenAI 新的简单评估库进行的。此外，在传统的 5-shot no-CoT MMLU 上，GPT-4o 创下了 87.2% 的新高分。（注：Llama3 400b 仍在训练中）

音频语音识别

GPT-4o 在所有语言的语音识别性能上都显著优于 Whisper-v3，尤其是在资源较少的语言方面。

音频翻译

GPT-4o 在语音翻译方面设立了新的行业标准，并在 MLS 基准测试中优于 Whisper-v3。

M3Exam

M3Exam 基准测试同时评估多语言和视觉能力，包含来自其他国家标准化测试的多项选择题，有时包括图表和图形。GPT-4o 在这个基准测试中在所有语言上都表现得比 GPT-4 更强。

视觉理解

GPT-4o 在视觉感知基准测试中达到了最先进的性能。所有视觉评估都是 0-shot，包括 MMMU、MathVista 和 ChartQA 的 0-shot COT。

如何使用

ChatGPT 免费版

免费版用户将默认使用 GPT-4o，并限制使用 GPT-4o 发送消息的数量，这取决于当前的使用情况和需求。当不可用时，免费版用户将自动切换回 GPT-3.5。还可以有限地使用高级工具发送消息，例如：

数据分析（Data analysis）
文件上传（File Uploads）
联网（Browse）
发现和使用 GPTs（Discovering and using GPTs）
视觉（Vision）

GPT-4o 具有先进的视觉能力，能够更准确地理解你共享的图像，免费版用户随时可以点击 ChatGPT Plus 按钮来升级。

ChatGPT Plus 和团队版

ChatGPT Plus 和团队版用户可以在 chatgpt.com（这是新域名地址，原域名为 chat.openai.com）上访问 GPT-4 和 GPT-4o，并有更大的使用上限。ChatGPT Plus 和团队版用户可以从页面顶部的下拉菜单中选择 GPT-4o。

自 2024 年 5 月 13 日起，Plus 用户每 3 小时最多可以发送 80 条 GPT-4o 消息和 40 条 GPT-4 消息。在高峰时段，OpenAI 可能会减少限制，以确保 GPT-4 和 GPT-4o 能够被尽可能多的人使用。ChatGPT 团队工作区用户的 GPT-4 和 GPT-4o 消息上限高于 ChatGPT Plus。

😅 注意

未使用的消息不会累积（即使你等待了 6 个小时，接下来的 3 小时内也不会有 80 条消息可用）。

ChatGPT 企业版

ChatGPT 企业客户将很快能够访问 GPT-4o。

ChatGPT 企业计划专为大型企业设计，提供无限制的高速访问 GPT-4o 和 GPT-4。在 ChatGPT 企业帐户上的新对话将默认使用 GPT-4o，可以从页面顶部的下拉菜单中选择其他模型。

ChatGPT 企业版还提供企业级的安全性和隐私保护、更长的上下文窗口以处理更长的输入、无限制的高速访问高级工具，如数据分析、定制选项等。

ChatGPT 桌面应用

OpenAI 首席技术官 Mira Murati 在 5 月 13 日的直播（Introducing GPT-4o^[7]）中分享了一些 ChatGPT 的最新更新，并解释说：“我们知道这些模型越来越复杂，但我们希望互动体验变得更加自然、简便，让你不再关注界面，而是专注于与 ChatGPT 的协作。”

OpenAI 推出了一个新的 macOS ChatGPT 桌面应用程序，旨在简化用户的工作流程（无论是免费还是付费用户都可以使用此应用）。用户可以通过键盘快捷键（Option + Space）立即向 ChatGPT 提问，并直接在应用中拍摄和讨论截图。

还可以通过桌面应用程序与 ChatGPT 进行语音对话，未来将加入 GPT-4o 的新音频和视频功能。无论你是想为公司头脑风暴新想法、准备面试还是讨论某个话题，只需点击桌面应用右下角的耳机图标即可开始语音对话。该应用现在开始向 Plus 用户推出，并将在未来几周内向更多用户开放。而 Windows 版本则计划在今年晚些时候推出。

其他动态

Sam blog

关于 OpenAI GPT-4o 最新公告中的两件事，Sam Altman 写了一篇文章（Sam Blog – GPT-4o^[8]）想特别强调。

首先，Altman 重申了 OpenAI 的使命之一，即将强大的人工智能工具免费或以极优惠的价格提供给大众。他为在 ChatGPT 中免费提供世界上最优秀的模型而感到自豪，这一服务没有广告或其他干扰。当初创建 OpenAI 时，他们的目标是开发人工智能并利用它为世界带来各种好处。然而，现在看来，他们将开发人工智能，并由其他人利用它创造各种令人惊叹的事物，而所有人都能从中受益。作为一家企业，他们将找到许多收费的项目，这将帮助他们为全球数十亿人提供免费的卓越人工智能服务。

其次，Altman 对新推出的语音和视频模式感到非常兴奋，认为这是他用过的最好的计算机界面。它像电影中的人工智能一样，令人惊讶地成为现实。实现人类级别的响应时间和表达能力带来了巨大的改变。原始的 ChatGPT 仅展示了语言界面的一小部分可能性，而新功能带来的体验截然不同。它快速、智能、有趣、自然且非常有帮助。与计算机对话从未如此自然，但现在确实如此了。随着增加可选的个性化、访问用户信息、代表用户采取行动等功能，Altman 看到一个令人兴奋的未来，在这个未来中，人们可以利用计算机完成比以往更多的任务。

最后，Altman 衷心感谢了投入大量工作使这一切成为现实的团队。

Jim Fan

5 月 13 日，Jim Fa 发帖简要说明了要实现沉浸式语音助手体验需要面临的诸多困难。

要实现沉浸式和魔幻般的语音助手体验，关键在于突破传统的三阶段处理模式（语音识别、语言生成、语音合成），因为这种模式会导致巨大的延迟，影响用户体验。自然对话需要边听边思考、适时回应、预测对方说完并立刻接话、有机插话、优雅处理打断和多人群聊等能力。要解决实时对话问题，不能仅仅依次加快每个神经网络的速度，而是要重新设计整个处理架构，尽可能重叠每个组件，并实现实时干预。最终，最理想的方法是设计一个端到端的神经网络，直接将音频映射为音频。期待 OpenAI 在这方面的突破。