早在 5 月 11 日,Sam 就在推文中表示:OpenAI 并没有推出 GPT-5,或搜索引擎,但团队一直在努力研发一些认为大家会喜欢的新东西(感觉就像是魔法一样)!

现在来看应该说的就是 GPT-4o 了,它在免费和付费账户中均可使用(应该是目前最强的免费模型了)。除此之外,ChatGPT 页面也进行了许多细节方面的优化,并且推出了桌面应用,进一步提升用户体验。

GPT-4o

OpenAI 最新的旗舰模型,能够实时处理音频、视觉和文本。

GPT-4o(“o”代表“omni”)是 OpenAI 在实现更自然人机交互方面的重要进展(Hello GPT-4o[1])。它能够接受文本、音频和图像的任意组合输入,并生成相应的输出,包括文本、音频和图像。该模型在音频输入的响应时间非常短,最短可达 232 毫秒,平均为 320 毫秒,接近人类对话的反应时间。在文本(英语)和代码方面,GPT-4o 的表现与 GPT-4 Turbo 相当,但在处理非英语语言文本方面有显著提升,同时在 API 中的速度更快且成本降低 50%。此外,GPT-4o 在视觉和音频理解方面表现尤为出色。

在 GPT-4o 之前,使用语音模式与 ChatGPT 对话的平均延迟时间分别为 GPT-3.5 的 2.8 秒和 GPT-4 的 5.4 秒。实现这一功能的流水线涉及三个独立模型(音频 → 文本 → 音频):一个用于将音频转录为文本,GPT-3.5 或 GPT-4 处理文本并生成文本,然后第三个模型将文本转换回音频。这种方式导致 GPT-4 无法直接感知语调、多位说话者或背景噪音,也无法生成笑声、歌唱或表达情感。

为了克服这些局限,OpenAI 训练了一个新的端到端跨文本、视觉和音频的单一模型(GPT-4o),这意味着所有输入和输出都由同一个神经网络处理。由于这是 OpenAI 第一个结合所有这些模态的模型,因此其功能和局限性仍在探索中。

它将首先在 ChatGPT 和 API 中作为文本和视觉模型提供(ChatGPT 将继续通过现有的语音模式功能支持语音)。具体来说,GPT-4o 将在 ChatGPT 免费版、Plus 版和团队版(企业版即将推出)以及 Chat Completions API、Assistants API 和 Batch API 中提供。

多模态交互

GPT-4o 展现了强大的多模态处理和交互能力,能够在多种情境下提供帮助和娱乐。它可以通过合作描述和记录事件,最终将整个过程编成歌曲。在教育方面,GPT-4o 可以帮助学生解答数学问题,提供逐步指导和鼓励。此外,GPT-4o 还可以教授其他语言学习(如中文、西班牙语),进行实时翻译,并作为语音客服处理客户服务请求。对于盲人,GPT-4o 可以充当“第三只眼”,帮助描述当前环境。

在娱乐和生活中,GPT-4o 可以在生日时唱生日歌,为新手父母讲故事,分享养宠物的乐趣,并在失眠时唱自编的轻柔摇篮曲。用户还可以调整 GPT-4o 的语速。在会议与社交中,GPT-4o 能在视频会议中充当助手,记录发言并总结要点;在朋友聚会中充当裁判;并根据需求提供赞美或讽刺。GPT-4o 还能猜测用户所处环境,帮助准备面试或相亲的穿着建议,并分饰两角演唱二重唱。通过这些功能,GPT-4o 展现了在多模态交互、教育、语言学习、生活娱乐和社交等方面的广泛应用潜力。

以上视频演示合集自 OpenAI,视频翻译由 @dotey 提供(仅供参考)。

GPT-4 Turbo vs. GPT-4o

GPT-4o 拥有相同的高智能性,但比 GPT-4 Turbo 更快、更便宜,且速率限制更高。具体来说:

  • 价格:GPT-4o 比 GPT-4 Turbo 便宜 50%,输入每百万 tokens 收费 $5,输出每百万 tokens 收费 $15。

  • 速率限制:GPT-4o 的速率限制是 GPT-4 Turbo 的 5 倍——每分钟最多 1000 万 tokens。

  • 速度:GPT-4o 是 GPT-4 Turbo 的两倍快。

  • 视觉:在视觉能力相关评估中,GPT-4o 的表现优于 GPT-4 Turbo。

  • 多语言:GPT-4o 对非英语语言的支持优于 GPT-4 Turbo。

GPT-4o 目前有 128k 的上下文窗口,知识截止日期为 2023 年 10 月。

GPT-4o API

任何拥有 OpenAI API 帐户的人都可以使用 GPT-4o 模型,可以在 Chat Completions API[2]Assistants API[3]Batch API[4] 中使用此模型。此模型还支持功能调用(function calling)和 JSON 模式。也可以通过 Playground[5] 开始使用。

在成功支付 $5 或更多(使用级别 1)后,将能够通过 OpenAI API 访问 GPT-4、GPT-4 Turbo 和 GPT-4o 模型。

模型价格

  • GPT-4o 是 OpenAI 目前最先进的多模态模型,比 GPT-4 Turbo 更快、更便宜,并且具有更强的视觉能力。该模型支持 128K 的上下文窗口,知识截止日期为 2023 年 10 月。

  • GPT-4 Turbo 提供 128K 的上下文窗口,知识截止日期为 2023 年 4 月,并具备基本的视觉支持功能。

  • GPT-4 是 OpenAI 的原始 GPT-4 模型具备广泛的通用知识和领域专业知识。

Model Input Output
Modelgpt-4o Input$5.00 / 1M tokens Output$15.00 / 1M tokens
Modelgpt-4o-2024-05-13 Input$5.00 / 1M tokens Output$15.00 / 1M tokens
Modelgpt-4-turbo Input$10.00 / 1M tokens Output$30.00 / 1M tokens
Modelgpt-4-turbo-2024-04-09 Input$10.00 / 1M tokens Output$30.00 / 1M tokens
Modelgpt-4 Input$30.00 / 1M tokens Output$60.00 / 1M tokens
Modelgpt-4-32k Input$60.00 / 1M tokens Output$120.00 / 1M tokens
Modelgpt-3.5-turbo-0125 Input$0.50 / 1M tokens Output$1.50 / 1M tokens
Modelgpt-3.5-turbo-instruct Input$1.50 / 1M tokens Output$2.00 / 1M tokens

了解更多 API pricing[6]

GPT-4o 模型评估

GPT-4o 不仅在传统领域表现出色(在文本、推理和编码智能方面达到了 GPT-4 Turbo 的水平),还在多语言、音频和视觉能力方面设立了新的标杆。

推理能力

GPT-4o 在 0-shot COT MMLU(一般知识问题)上取得了 88.7% 的新高分。所有这些评估都是通过 OpenAI 新的简单评估库进行的。此外,在传统的 5-shot no-CoT MMLU 上,GPT-4o 创下了 87.2% 的新高分。(注:Llama3 400b 仍在训练中)

音频语音识别

GPT-4o 在所有语言的语音识别性能上都显著优于 Whisper-v3,尤其是在资源较少的语言方面。

音频翻译

GPT-4o 在语音翻译方面设立了新的行业标准,并在 MLS 基准测试中优于 Whisper-v3。

M3Exam

M3Exam 基准测试同时评估多语言和视觉能力,包含来自其他国家标准化测试的多项选择题,有时包括图表和图形。GPT-4o 在这个基准测试中在所有语言上都表现得比 GPT-4 更强。

视觉理解

GPT-4o 在视觉感知基准测试中达到了最先进的性能。所有视觉评估都是 0-shot,包括 MMMU、MathVista 和 ChartQA 的 0-shot COT。

如何使用

ChatGPT 免费版

免费版用户将默认使用 GPT-4o,并限制使用 GPT-4o 发送消息的数量,这取决于当前的使用情况和需求。当不可用时,免费版用户将自动切换回 GPT-3.5。还可以有限地使用高级工具发送消息,例如:

  • 数据分析(Data analysis)

  • 文件上传(File Uploads)

  • 联网(Browse)

  • 发现和使用 GPTs(Discovering and using GPTs)

  • 视觉(Vision)

GPT-4o 具有先进的视觉能力,能够更准确地理解你共享的图像,免费版用户随时可以点击 ChatGPT Plus 按钮来升级。

ChatGPT Plus 和团队版

ChatGPT Plus 和团队版用户可以在 chatgpt.com(这是新域名地址,原域名为 chat.openai.com) 上访问 GPT-4 和 GPT-4o,并有更大的使用上限。ChatGPT Plus 和团队版用户可以从页面顶部的下拉菜单中选择 GPT-4o。

自 2024 年 5 月 13 日起,Plus 用户每 3 小时最多可以发送 80 条 GPT-4o 消息和 40 条 GPT-4 消息。在高峰时段,OpenAI 可能会减少限制,以确保 GPT-4 和 GPT-4o 能够被尽可能多的人使用。ChatGPT 团队工作区用户的 GPT-4 和 GPT-4o 消息上限高于 ChatGPT Plus。

😅 注意

未使用的消息不会累积(即使你等待了 6 个小时,接下来的 3 小时内也不会有 80 条消息可用)。

 

ChatGPT 企业版

ChatGPT 企业客户将很快能够访问 GPT-4o。

ChatGPT 企业计划专为大型企业设计,提供无限制的高速访问 GPT-4o 和 GPT-4。在 ChatGPT 企业帐户上的新对话将默认使用 GPT-4o,可以从页面顶部的下拉菜单中选择其他模型。

ChatGPT 企业版还提供企业级的安全性和隐私保护、更长的上下文窗口以处理更长的输入、无限制的高速访问高级工具,如数据分析、定制选项等。

ChatGPT 桌面应用

OpenAI 首席技术官 Mira Murati 在 5 月 13 日的直播(Introducing GPT-4o[7])中分享了一些 ChatGPT 的最新更新,并解释说:“我们知道这些模型越来越复杂,但我们希望互动体验变得更加自然、简便,让你不再关注界面,而是专注于与 ChatGPT 的协作。”

OpenAI 推出了一个新的 macOS ChatGPT 桌面应用程序,旨在简化用户的工作流程(无论是免费还是付费用户都可以使用此应用)。用户可以通过键盘快捷键(Option + Space)立即向 ChatGPT 提问,并直接在应用中拍摄和讨论截图。

还可以通过桌面应用程序与 ChatGPT 进行语音对话,未来将加入 GPT-4o 的新音频和视频功能。无论你是想为公司头脑风暴新想法、准备面试还是讨论某个话题,只需点击桌面应用右下角的耳机图标即可开始语音对话。该应用现在开始向 Plus 用户推出,并将在未来几周内向更多用户开放。而 Windows 版本则计划在今年晚些时候推出。

其他动态

Sam blog

关于 OpenAI GPT-4o 最新公告中的两件事,Sam Altman 写了一篇文章(Sam Blog – GPT-4o[8])想特别强调。

首先,Altman 重申了 OpenAI 的使命之一,即将强大的人工智能工具免费或以极优惠的价格提供给大众。他为在 ChatGPT 中免费提供世界上最优秀的模型而感到自豪,这一服务没有广告或其他干扰。当初创建 OpenAI 时,他们的目标是开发人工智能并利用它为世界带来各种好处。然而,现在看来,他们将开发人工智能,并由其他人利用它创造各种令人惊叹的事物,而所有人都能从中受益。作为一家企业,他们将找到许多收费的项目,这将帮助他们为全球数十亿人提供免费的卓越人工智能服务。

其次,Altman 对新推出的语音和视频模式感到非常兴奋,认为这是他用过的最好的计算机界面。它像电影中的人工智能一样,令人惊讶地成为现实。实现人类级别的响应时间和表达能力带来了巨大的改变。原始的 ChatGPT 仅展示了语言界面的一小部分可能性,而新功能带来的体验截然不同。它快速、智能、有趣、自然且非常有帮助。与计算机对话从未如此自然,但现在确实如此了。随着增加可选的个性化、访问用户信息、代表用户采取行动等功能,Altman 看到一个令人兴奋的未来,在这个未来中,人们可以利用计算机完成比以往更多的任务。

最后,Altman 衷心感谢了投入大量工作使这一切成为现实的团队。

Jim Fan

5 月 13 日,Jim Fa 发帖简要说明了要实现沉浸式语音助手体验需要面临的诸多困难。

要实现沉浸式和魔幻般的语音助手体验,关键在于突破传统的三阶段处理模式(语音识别、语言生成、语音合成),因为这种模式会导致巨大的延迟,影响用户体验。自然对话需要边听边思考、适时回应、预测对方说完并立刻接话、有机插话、优雅处理打断和多人群聊等能力。要解决实时对话问题,不能仅仅依次加快每个神经网络的速度,而是要重新设计整个处理架构,尽可能重叠每个组件,并实现实时干预。最终,最理想的方法是设计一个端到端的神经网络,直接将音频映射为音频。期待 OpenAI 在这方面的突破。

📌 语音处理三阶段

  • 语音识别(ASR):将音频转换为文本(如 Whisper)

  • 语言模型(LLM):根据输入文本生成回复文本

  • 语音合成(TTS):将生成的文本转换回音频(如 ElevenLabs 或 VALL-E)

 

用户分享

案例 1

GPT-4o 在处理 18 世纪的手写文字方面表现得非常出色。我给它提供了一封信并让它进行转录,结果只有几处非常微小的错误……实在令人惊叹!

案例 2

GPT-4o 的速度和额外的编码能力使其在分析方面比 GPT-4 更加强大。当要求其“分析、可视化、进行复杂分析”时,GPT-4o 能在没有任何其他背景信息的情况下,对一组超级英雄数据集进行令人印象深刻的可视化、主成分分析(PCA)和聚类分析等。

GPT-4o 能力探索

这部分内容是对 GPT-4o 能力的部分探索,截图取自 OpenAI blog,希望可以对你了解和使用 GPT-4o 有所启发。

注:Input 为输入的 Prompt,Output 为输出的内容。

视觉叙事 – 机器人写作障碍

视觉叙事 – 邮递员莎莉

电影《侦探》的海报创作

角色设计 – 机器人吉里

可迭代编辑的诗意排版

GPT-4o 纪念币设计

照片转漫画

文本转字体

3D 物体合成

品牌植入 – 杯垫上的标志

诗意排版

多行渲染 – 机器人发短信

多人会议记录

讲座总结

变量绑定 – 堆叠方块

具体诗歌

References

[1]

Hello GPT-4o: https://openai.com/index/hello-gpt-4o

[2]

Chat Completions API: https://platform.openai.com/docs/guides/text-generation/chat-completions-api

[3]

Assistants API: https://platform.openai.com/docs/api-reference/assistants

[4]

Batch API: https://platform.openai.com/docs/guides/batch/batch-api

[5]

Playground: https://platform.openai.com/playground

[6]

API pricing: https://openai.com/pricing

[7]

Introducing GPT-4o: https://www.youtube.com/live/DQacCB9tDaw

[8]

Sam Blog – GPT-4o: https://blog.samaltman.com/gpt-4o

分类: AIGC

0 条评论

发表回复

Avatar placeholder

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据

蜀ICP备16001794号
© 2014 - 2024 linpxing.cn All right reserved.