早在 5 月 11 日,Sam 就在推文中表示:OpenAI 并没有推出 GPT-5,或搜索引擎,但团队一直在努力研发一些认为大家会喜欢的新东西(感觉就像是魔法一样)!
现在来看应该说的就是 GPT-4o 了,它在免费和付费账户中均可使用(应该是目前最强的免费模型了)。除此之外,ChatGPT 页面也进行了许多细节方面的优化,并且推出了桌面应用,进一步提升用户体验。
GPT-4o
OpenAI 最新的旗舰模型,能够实时处理音频、视觉和文本。
GPT-4o(“o”代表“omni”)是 OpenAI 在实现更自然人机交互方面的重要进展(Hello GPT-4o[1])。它能够接受文本、音频和图像的任意组合输入,并生成相应的输出,包括文本、音频和图像。该模型在音频输入的响应时间非常短,最短可达 232 毫秒,平均为 320 毫秒,接近人类对话的反应时间。在文本(英语)和代码方面,GPT-4o 的表现与 GPT-4 Turbo 相当,但在处理非英语语言文本方面有显著提升,同时在 API 中的速度更快且成本降低 50%。此外,GPT-4o 在视觉和音频理解方面表现尤为出色。
在 GPT-4o 之前,使用语音模式与 ChatGPT 对话的平均延迟时间分别为 GPT-3.5 的 2.8 秒和 GPT-4 的 5.4 秒。实现这一功能的流水线涉及三个独立模型(音频 → 文本 → 音频
):一个用于将音频转录为文本,GPT-3.5 或 GPT-4 处理文本并生成文本,然后第三个模型将文本转换回音频。这种方式导致 GPT-4 无法直接感知语调、多位说话者或背景噪音,也无法生成笑声、歌唱或表达情感。
为了克服这些局限,OpenAI 训练了一个新的端到端跨文本、视觉和音频的单一模型(GPT-4o),这意味着所有输入和输出都由同一个神经网络处理。由于这是 OpenAI 第一个结合所有这些模态的模型,因此其功能和局限性仍在探索中。
它将首先在 ChatGPT 和 API 中作为文本和视觉模型提供(ChatGPT 将继续通过现有的语音模式功能支持语音)。具体来说,GPT-4o 将在 ChatGPT 免费版、Plus 版和团队版(企业版即将推出)以及 Chat Completions API、Assistants API 和 Batch API 中提供。
多模态交互
GPT-4o 展现了强大的多模态处理和交互能力,能够在多种情境下提供帮助和娱乐。它可以通过合作描述和记录事件,最终将整个过程编成歌曲。在教育方面,GPT-4o 可以帮助学生解答数学问题,提供逐步指导和鼓励。此外,GPT-4o 还可以教授其他语言学习(如中文、西班牙语),进行实时翻译,并作为语音客服处理客户服务请求。对于盲人,GPT-4o 可以充当“第三只眼”,帮助描述当前环境。
在娱乐和生活中,GPT-4o 可以在生日时唱生日歌,为新手父母讲故事,分享养宠物的乐趣,并在失眠时唱自编的轻柔摇篮曲。用户还可以调整 GPT-4o 的语速。在会议与社交中,GPT-4o 能在视频会议中充当助手,记录发言并总结要点;在朋友聚会中充当裁判;并根据需求提供赞美或讽刺。GPT-4o 还能猜测用户所处环境,帮助准备面试或相亲的穿着建议,并分饰两角演唱二重唱。通过这些功能,GPT-4o 展现了在多模态交互、教育、语言学习、生活娱乐和社交等方面的广泛应用潜力。
以上视频演示合集自 OpenAI,视频翻译由 @dotey 提供(仅供参考)。
GPT-4 Turbo vs. GPT-4o
GPT-4o 拥有相同的高智能性,但比 GPT-4 Turbo 更快、更便宜,且速率限制更高。具体来说:
-
价格:GPT-4o 比 GPT-4 Turbo 便宜 50%,输入每百万 tokens 收费 $5,输出每百万 tokens 收费 $15。
-
速率限制:GPT-4o 的速率限制是 GPT-4 Turbo 的 5 倍——每分钟最多 1000 万 tokens。
-
速度:GPT-4o 是 GPT-4 Turbo 的两倍快。
-
视觉:在视觉能力相关评估中,GPT-4o 的表现优于 GPT-4 Turbo。
-
多语言:GPT-4o 对非英语语言的支持优于 GPT-4 Turbo。
GPT-4o 目前有 128k 的上下文窗口,知识截止日期为 2023 年 10 月。
GPT-4o API
任何拥有 OpenAI API 帐户的人都可以使用 GPT-4o 模型,可以在 Chat Completions API[2]、Assistants API[3] 和 Batch API[4] 中使用此模型。此模型还支持功能调用(function calling)和 JSON 模式。也可以通过 Playground[5] 开始使用。
在成功支付 $5 或更多(使用级别 1)后,将能够通过 OpenAI API 访问 GPT-4、GPT-4 Turbo 和 GPT-4o 模型。
模型价格
GPT-4o 是 OpenAI 目前最先进的多模态模型,比 GPT-4 Turbo 更快、更便宜,并且具有更强的视觉能力。该模型支持 128K 的上下文窗口,知识截止日期为 2023 年 10 月。
GPT-4 Turbo 提供 128K 的上下文窗口,知识截止日期为 2023 年 4 月,并具备基本的视觉支持功能。
GPT-4 是 OpenAI 的原始 GPT-4 模型具备广泛的通用知识和领域专业知识。
Model | Input | Output |
---|---|---|
Modelgpt-4o | Input$5.00 / 1M tokens | Output$15.00 / 1M tokens |
Modelgpt-4o-2024-05-13 | Input$5.00 / 1M tokens | Output$15.00 / 1M tokens |
Modelgpt-4-turbo | Input$10.00 / 1M tokens | Output$30.00 / 1M tokens |
Modelgpt-4-turbo-2024-04-09 | Input$10.00 / 1M tokens | Output$30.00 / 1M tokens |
Modelgpt-4 | Input$30.00 / 1M tokens | Output$60.00 / 1M tokens |
Modelgpt-4-32k | Input$60.00 / 1M tokens | Output$120.00 / 1M tokens |
Modelgpt-3.5-turbo-0125 | Input$0.50 / 1M tokens | Output$1.50 / 1M tokens |
Modelgpt-3.5-turbo-instruct | Input$1.50 / 1M tokens | Output$2.00 / 1M tokens |
了解更多 API pricing[6]。
GPT-4o 模型评估
GPT-4o 不仅在传统领域表现出色(在文本、推理和编码智能方面达到了 GPT-4 Turbo 的水平),还在多语言、音频和视觉能力方面设立了新的标杆。
推理能力
GPT-4o 在 0-shot COT MMLU(一般知识问题)上取得了 88.7% 的新高分。所有这些评估都是通过 OpenAI 新的简单评估库进行的。此外,在传统的 5-shot no-CoT MMLU 上,GPT-4o 创下了 87.2% 的新高分。(注:Llama3 400b 仍在训练中)
音频语音识别
GPT-4o 在所有语言的语音识别性能上都显著优于 Whisper-v3,尤其是在资源较少的语言方面。
音频翻译
GPT-4o 在语音翻译方面设立了新的行业标准,并在 MLS 基准测试中优于 Whisper-v3。
M3Exam
M3Exam 基准测试同时评估多语言和视觉能力,包含来自其他国家标准化测试的多项选择题,有时包括图表和图形。GPT-4o 在这个基准测试中在所有语言上都表现得比 GPT-4 更强。
视觉理解
GPT-4o 在视觉感知基准测试中达到了最先进的性能。所有视觉评估都是 0-shot,包括 MMMU、MathVista 和 ChartQA 的 0-shot COT。
如何使用
ChatGPT 免费版
免费版用户将默认使用 GPT-4o,并限制使用 GPT-4o 发送消息的数量,这取决于当前的使用情况和需求。当不可用时,免费版用户将自动切换回 GPT-3.5。还可以有限地使用高级工具发送消息,例如:
-
数据分析(Data analysis)
-
文件上传(File Uploads)
-
联网(Browse)
-
发现和使用 GPTs(Discovering and using GPTs)
-
视觉(Vision)
GPT-4o 具有先进的视觉能力,能够更准确地理解你共享的图像,免费版用户随时可以点击 ChatGPT Plus 按钮来升级。
ChatGPT Plus 和团队版
ChatGPT Plus 和团队版用户可以在 chatgpt.com
(这是新域名地址,原域名为 chat.openai.com
) 上访问 GPT-4 和 GPT-4o,并有更大的使用上限。ChatGPT Plus 和团队版用户可以从页面顶部的下拉菜单中选择 GPT-4o。
自 2024 年 5 月 13 日起,Plus 用户每 3 小时最多可以发送 80 条 GPT-4o 消息和 40 条 GPT-4 消息。在高峰时段,OpenAI 可能会减少限制,以确保 GPT-4 和 GPT-4o 能够被尽可能多的人使用。ChatGPT 团队工作区用户的 GPT-4 和 GPT-4o 消息上限高于 ChatGPT Plus。
😅 注意
未使用的消息不会累积(即使你等待了 6 个小时,接下来的 3 小时内也不会有 80 条消息可用)。
ChatGPT 企业版
ChatGPT 企业客户将很快能够访问 GPT-4o。
ChatGPT 企业计划专为大型企业设计,提供无限制的高速访问 GPT-4o 和 GPT-4。在 ChatGPT 企业帐户上的新对话将默认使用 GPT-4o,可以从页面顶部的下拉菜单中选择其他模型。
ChatGPT 企业版还提供企业级的安全性和隐私保护、更长的上下文窗口以处理更长的输入、无限制的高速访问高级工具,如数据分析、定制选项等。
ChatGPT 桌面应用
OpenAI 首席技术官 Mira Murati 在 5 月 13 日的直播(Introducing GPT-4o[7])中分享了一些 ChatGPT 的最新更新,并解释说:“我们知道这些模型越来越复杂,但我们希望互动体验变得更加自然、简便,让你不再关注界面,而是专注于与 ChatGPT 的协作。”
OpenAI 推出了一个新的 macOS ChatGPT 桌面应用程序,旨在简化用户的工作流程(无论是免费还是付费用户都可以使用此应用)。用户可以通过键盘快捷键(Option + Space
)立即向 ChatGPT 提问,并直接在应用中拍摄和讨论截图。
还可以通过桌面应用程序与 ChatGPT 进行语音对话,未来将加入 GPT-4o 的新音频和视频功能。无论你是想为公司头脑风暴新想法、准备面试还是讨论某个话题,只需点击桌面应用右下角的耳机图标即可开始语音对话。该应用现在开始向 Plus 用户推出,并将在未来几周内向更多用户开放。而 Windows 版本则计划在今年晚些时候推出。
其他动态
Sam blog
关于 OpenAI GPT-4o 最新公告中的两件事,Sam Altman 写了一篇文章(Sam Blog – GPT-4o[8])想特别强调。
首先,Altman 重申了 OpenAI 的使命之一,即将强大的人工智能工具免费或以极优惠的价格提供给大众。他为在 ChatGPT 中免费提供世界上最优秀的模型而感到自豪,这一服务没有广告或其他干扰。当初创建 OpenAI 时,他们的目标是开发人工智能并利用它为世界带来各种好处。然而,现在看来,他们将开发人工智能,并由其他人利用它创造各种令人惊叹的事物,而所有人都能从中受益。作为一家企业,他们将找到许多收费的项目,这将帮助他们为全球数十亿人提供免费的卓越人工智能服务。
其次,Altman 对新推出的语音和视频模式感到非常兴奋,认为这是他用过的最好的计算机界面。它像电影中的人工智能一样,令人惊讶地成为现实。实现人类级别的响应时间和表达能力带来了巨大的改变。原始的 ChatGPT 仅展示了语言界面的一小部分可能性,而新功能带来的体验截然不同。它快速、智能、有趣、自然且非常有帮助。与计算机对话从未如此自然,但现在确实如此了。随着增加可选的个性化、访问用户信息、代表用户采取行动等功能,Altman 看到一个令人兴奋的未来,在这个未来中,人们可以利用计算机完成比以往更多的任务。
最后,Altman 衷心感谢了投入大量工作使这一切成为现实的团队。
Jim Fan
5 月 13 日,Jim Fa 发帖简要说明了要实现沉浸式语音助手体验需要面临的诸多困难。
要实现沉浸式和魔幻般的语音助手体验,关键在于突破传统的三阶段处理模式(语音识别、语言生成、语音合成),因为这种模式会导致巨大的延迟,影响用户体验。自然对话需要边听边思考、适时回应、预测对方说完并立刻接话、有机插话、优雅处理打断和多人群聊等能力。要解决实时对话问题,不能仅仅依次加快每个神经网络的速度,而是要重新设计整个处理架构,尽可能重叠每个组件,并实现实时干预。最终,最理想的方法是设计一个端到端的神经网络,直接将音频映射为音频。期待 OpenAI 在这方面的突破。
📌 语音处理三阶段
语音识别(ASR):将音频转换为文本(如 Whisper)
语言模型(LLM):根据输入文本生成回复文本
语音合成(TTS):将生成的文本转换回音频(如 ElevenLabs 或 VALL-E)
用户分享
案例 1
GPT-4o 在处理 18 世纪的手写文字方面表现得非常出色。我给它提供了一封信并让它进行转录,结果只有几处非常微小的错误……实在令人惊叹!
案例 2
GPT-4o 的速度和额外的编码能力使其在分析方面比 GPT-4 更加强大。当要求其“分析、可视化、进行复杂分析”时,GPT-4o 能在没有任何其他背景信息的情况下,对一组超级英雄数据集进行令人印象深刻的可视化、主成分分析(PCA)和聚类分析等。
GPT-4o 能力探索
这部分内容是对 GPT-4o 能力的部分探索,截图取自 OpenAI blog,希望可以对你了解和使用 GPT-4o 有所启发。
注:Input 为输入的 Prompt,Output 为输出的内容。
视觉叙事 – 机器人写作障碍
视觉叙事 – 邮递员莎莉
电影《侦探》的海报创作
角色设计 – 机器人吉里
可迭代编辑的诗意排版
GPT-4o 纪念币设计
照片转漫画
文本转字体
3D 物体合成
品牌植入 – 杯垫上的标志
诗意排版
多行渲染 – 机器人发短信
多人会议记录
讲座总结
变量绑定 – 堆叠方块
具体诗歌
References
Hello GPT-4o: https://openai.com/index/hello-gpt-4o
[2]
Chat Completions API: https://platform.openai.com/docs/guides/text-generation/chat-completions-api
[3]
Assistants API: https://platform.openai.com/docs/api-reference/assistants
[4]
Batch API: https://platform.openai.com/docs/guides/batch/batch-api
[5]
Playground: https://platform.openai.com/playground
[6]
API pricing: https://openai.com/pricing
[7]
Introducing GPT-4o: https://www.youtube.com/live/DQacCB9tDaw
[8]
Sam Blog – GPT-4o: https://blog.samaltman.com/gpt-4o
0 条评论