OpenAI 发布全新 ChatGPT-4o 模型，开启多模态人机对话新玩法

OpenAI 发布全新 ChatGPT-4o 模型，开启多模态人机对话新玩法 | NBL 分享

2024-05-1618:06

北拓资本

2024-05-16 18:06

北拓资本

2024-05-16 18:06

收藏文章

订阅专栏

美国西部时间周一早上 10 点，OpenAI 通过全球直播发布最新 ChatGPT-4o模型，并展示了其命名中 “无所不能” （Omni）的一系列多模态能力,即同时处理图像、文本、音频的任意组合。

直播现场演示了 GPT-4o 与人类的丝滑对话，它能观察样貌、感受呼吸、以更丰富的语气回复。智能交互能力的突破，让科幻电影中的设想走进现实。

GPT-4 到 GPT-4o 的迭代带给我们技术结合应用的创新，未来会在应用层有更多令人期待的玩法，同时 AI 模型的日新月异让我们感受到人机交互的时代已经到来。

来源｜新智元

GPT-4o，在千呼万唤中登场了。

现场演示中，它的表现仿佛一个人正坐在旁边，和人类的对话节奏自然、融洽，完全听不出是个 AI。

从今夜之后，人机交互彻底进入新的时代！

这也正呼应着它名字中的玄机：「o」代表着「omni」，意味着 OpenAI 朝着更自然的人机交互迈出了重要一步。

在短短 232 毫秒内，GPT-4o 就能对音频输入做出反应，平均为 320 毫秒。这个反应时间，已经达到了人类的级别！

并且，它可以将文本、音频、图像任何组合作为输入和输出。

而在英语文本和代码基准测试中，GPT-4o 的性能与 GPT-4 Turbo 不相上下，并在非英语文本得到显著改进。

更值得一提的是，这款全新的 AI 模型，免费向所有人提供 GPT-4 级别的 AI。

(是的，上周在 LMSYS 模型竞技场上引起整个 AI 圈疯狂试用的那个 gpt2，就是它！）

现在，进入 ChatGPT 页面，Plus 用户可以抢先体验「最新、最先进的模型」GPT-4o。

Sam Altman 亲自在 x 上发起了产品介绍。

Altman 介绍道「GPT-4o 是 OpenAI 有史以来最好的模型，它很聪明，速度很快，是天然的多模态。」

而且，所有 ChatGPT 用户都可以使用，完全免费！

Altman 特意强调，此前虽然只有按月付费的用户才能使用 GPT-4 级别的模型，但这可不是 OpenAI 的本意哦。

「我们的初心，就是把最出色的 AI 工具，交到每个人的手中。」

（还想着，这场重要的发布会，奥特曼怎么没有现身，原来在观众席中）

而即将召开年度 I/O 大会的谷歌，不甘示弱，也开启了语音助手的 demo 实时演示。

谷歌 DeepMin 的 CEO Demis Hassabis 激动地表示，自己将首次在 I/O 大会上演讲，并分享他们所做的工作。

两大巨头正面刚起来了！明天还有好戏要看，已经闻到硝烟味了。

一夜颠覆语音助手：全新旗舰 GPT-4o 登场

当然，这次发布会的压轴主角，就是 OpenAI 推出的旗舰模型 GPT-4o 了。

这个带着光环登场的模型，其最大意义就在于，把 GPT-4 级别的智能，带给了 OpenAI 的每一位用户！

从此以后，无论你是付费用户，还是免费用户，都能通过它体验 GPT-4 了。

唯一不同的是，ChatGPT Plus 的消息限制是免费用户的 5 倍。

并且，GPT-4o 不仅提供与 GPT-4 同等程度的模型能力，推理速度还更快，还能提供同时理解文本、图像、音频等内容的多模态能力。

注意，GPT-4o 接下来要放大招了。

实时语音对话：ChatGPT 完美变身 Moss

研发负责人 Mark Chen 首先展示的，是全新 ChatGPT 的关键功能之一——实时语音对话。

他向它问道：「我正在台上，给大家做现场演示呢，我有点紧张，该怎么办呀？」

ChatGPT 非常体贴地表示：「你在台上做演示吗，那你真的太棒了！深呼吸一下吧，记得你是个专家！」

Mark 疯狂地大喘气几次，问 ChatGPT 能给自己什么建议吗。（此处全场笑声）

它惊讶地说道：「放松啊 Mark，慢点呼吸，你可不是个吸尘器！」（它的幽默感，也再次引起全场哄笑）

注意，在这个过程中，ChatGPT 和 Mark 的互动几乎无延迟，随时接梗，共情能力满分。

而且，模型能够理解人类在对话中适时「打断」的习惯，会及时停下来听你说话，并给出相应的回复，而且也不会「断片」。

比如，Mark 表示自己要再试一遍深呼吸，此时 ChatGPT 也恰到好处地插进来接话说「慢慢呼气」。

整个过程，自然连贯得仿佛它是个坐在你对面的人类，完全没有 AI 的机械感和僵硬感！

相比反应迟钝、没法打断还缺少情商的 Siri 等语音助手，这局 ChatGPT 完胜。

这，才是人类最理想 AI 语音助手的样子啊，Moss 果然成真了！

不仅如此，ChatGPT 的「高情商」也让观众们惊呼太顶了！

对话中，它可以听懂用户说话时不同的语调、语气，还能根据自己的台词生成不同语气的语音，完全没有「机械感」。

扮演不同角色，给任性的人类讲睡前故事。

接下来，ChatGPT 被要求讲一个睡前故事，主题是「恋爱中的机器人」。

ChatGPT 没讲几秒，就被人类粗暴地打断了：「多点情绪，故事里来点戏剧性行不？」

ChatGPT 表示 ok，用更起伏的声调、更夸张的语气开始讲起了故事。

结果没几秒，它又被再次打断：「不行不行，再多点情感，给我最大程度的表达可以吗？」

接下来，我们听到一个仿佛在舞台上表演莎剧的 ChatGPT，语气夸张到仿佛是个戏剧演员。

随后，它又多次被打断，并且耐心地按照人类的要求，依次变成了机器人声和唱歌模式。

ChatGPT 听到要求自己唱歌时，甚至叹了口气，然后开始亮起了优美的歌喉。

这也就是 ChatGPT 脾气好，要是真人，估计要被暴打了。不过它无奈叹气的那个瞬间，一瞬间的确 san 值狂掉——真的好像人啊！

视频实时互动解方程

秀完情商，ChatGPT 要开始秀智商了。

下一个任务，另一位研发负责人 Barret 手写了一个方程，并打开摄像头拍给 ChatGPT，让它扮演「在线导师」的角色帮助自己解题，而且只能给提示，不能直接说答案。

接到任务的 ChatGPT，甚至开心大叫：「Oops，我好兴奋啊！」

小哥在纸上写下这样一个方程：3x+1=4。然后问 ChatGPT 自己写的是什么方程，ChatGPT 语调自然地回答出来了。

随后，在小哥的要求下，它一步一步说出了解题步骤。

最厉害的是，随着小哥在摄像头中解题，ChatGPT 实时地就给出了鼓励和引导。

而且可怕的是，时间上没有丝毫延迟，这边人还在算呢，那边就实时给出了评价和反馈。（说背后没藏个人还真不信呢）

想起之前谷歌剪辑版的 Gemini 演示，这对比之下真是打脸啪啪的啊。

当被问到「学习线性方程在生活中有什么用」这样的问题时，ChatGPT 还会举出实际的例子对你「循循善诱」：

这是个不错的问题，虽然我们没有注意到，但线性方程在每天的生活中都会出现，比如计算花销、规划旅行、烹饪，甚至在商业中进行盈亏计算。这基本上是解决问题的一种方式，你需要找到一个未知变量......

不仅言之有物，而且态度及其和蔼，说话说到一半被打断时都不会生气。

方程的任务告一段落，两人还现场来了一波表白——在纸上写下「我

ChatGPT」。

ChatGPT 看到后，惊喜又害羞地说：「哦，你竟然说爱我，你太可爱了！」

桌面版 ChatGPT 秒解代码难题

解方程任务也许还不能充分展现 ChatGPT 的能力，于是 OpenAI 又上了一波难度——看代码，并进行简短描述。

模型几乎是立即理解了代码，并给出了丝滑且完整的描述。

比如准确对应了函数名及其功能，并识别出了其中取平均值、最高值等操作的意图。

当被问到「如果没有 foo 这个函数，绘制的图表会是什么样子」，ChatGPT 也立即做出了正确回复，可见已经完美理解了代码中的内在逻辑。

接下来，ChatGPT 还被要求概述代码生成的图表，并回答用户问题。

不出意外，图表中各方面的关键信息也都被 ChatGPT 精准捕捉到了，包括 x、y 轴的信息与范围、数据标注的含义等。

随后 Mark 提出的问题是「你看到哪个月的气温最高？对应的最高气温大概是多少？」

这种能作为学校数学考试题目的图表理解任务，ChatGPT 解决起来也几乎没有障碍，还能像接受面试一样实时回答你的问题。

直播观众提问：给你看看我的自拍

模型演示之后，还有彩蛋。

发布会在线上同步直播，于是主持人收集了一些推特网友的提问，并且当场展示。

这可以说是比演示更加刺激的环节，在没有准备和彩排的情况下，这可是真刀真枪地检验模型实力了。

第一位网友的提问是「GPT-4o 是否具有实时翻译功能？」

随后，在 Mark 的任务定义下，ChatGPT 完成了将英语「同声传译」为意大利语的任务。

第二位网友的提问是「模型可以只通过我的表情识别情绪吗？」

研发负责人 Barett 也没在怕，拿起手机就照了一张自拍，甩给了 ChatGPT，问道「我现在是什么情绪呢？」

ChatGPT 不知是幽默了一把还是翻车了，说「我好像在看一个木质表面的东西」。

见势不好，Barett 匆忙打断。他在提示工程方面也是经验颇深，一句话就将对话拉回正轨：「那是我之前发给你的的东西，不用担心，我不是一张桌子」。

ChatGPT 表示，啊，这就对了嘛。再次引起全场哄笑。这次它给出了非常「人性化」的正确答案——

「看起来你非常开心快乐，带着大大的笑容，可能甚至有一点兴奋。无论正在发生什么事，似乎你心情很好，愿意分享一下有什么高兴事吗？」

Barett 顺势表示：「我开心的原因是我们正在做演示，你的表现很棒。」

受到夸奖的 ChatGPT 居然很风趣地来了一句「哦，别说了，你都让我脸红了」，再次逗笑了全场。

Greg Brockman 亲自演示

除了发布会上的现场演示之外，OpenAI 总裁 Greg Brockman 也亲自下场，在网上发布了一段自己使用 ChatGPT 各种功能的视频。

GPT-4o 强在哪儿？

在过去几年里，OpenAI 一直在专注于提升模型的智能水平。

虽然后者已经达到了一个相当的水平，但是，今天这是第一次，模型在易用性方面，迈出了一大步！

为什么会把模型的易用性提到如此战略层面的高度？这是因为，即使一个 AI 再强大，如果它不能和人有效互动，也就失去了意义。

在这个过程中，OpenAI 所着眼的，是人类和机器交互的未来。

而今天 GPT-4o 的发布，可能会成为一个分水岭，让人机协作的范式彻底迈入一个新阶段！

为此，OpenAI 希望把 GPT-4o 和人类的互动，打造得格外舒服自然。

不过，虽然这个理想很宏大，但是在实际操作过程中，却遭遇了不小的困难。

毫秒级响应，与人类对话一致

首先，在人类之间互动时，有很多东西是我们认为理所当然的，但要让 AI 理解这些，就变得很困难。

比如，我们的谈话经常被打断，谈话过程中会有背景噪声，会有多个人同时说话的情况，说话人的语气语调也经常发生微妙的变化。

OpenAI 克服了很大困难，花费了数月的时间，终于打造出了完美适应这些状况的 GPT-4o！

在 GPT-4o 发布之前，通过语音模式（Voice Mode）与 ChatGPT 对话，平均延迟为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。

当时，为了实现这一点，「语音模式」设有三个独立模型的管线：

一个简单模型将音频转录成文本
GPT-3.5 或 GPT-4 接收文本并输出文本
第三个简单模型将文本转换回音频

这一过程走下来，意味着主要的智能来源 GPT-4 就丢失了很多信息：

不能直接观察语气、多位说话者或背景噪音，也无法无法输出笑声、歌声或表达情感。

而这也导致了延迟，大大破坏了我们和 ChatGPT 协作的沉浸感。

但现在，GPT-4o 让一切都发生得很自然。

它能以平均 320 毫秒，做出响应。

它可以跨越语音、文本、视觉多种形式，直接进行推理！

GPT-4o 是 OpenAI 首个端到端训练的跨越文本、视觉和音频的新模型，意味着所有输入和输出都由相同的神经网络处理。

这就会彻底颠覆 ChatGPT 1 亿用户的工作和生活。

不仅如此，由于 GPT-4o 是「原生的多模态」，自然地集成了语言、视觉和音频等多种能力。

用户可以上传各种图片、视频，以及包含图片和文字的文档，讨论其中的内容。

GPT-4o 也内置了搜索功能，可以实时搜索网页信息来回复用户。

相比 ChatGPT，GPT-4o 的记忆能力更是提升了不少，不仅在对话中可以记住你提过的问题，还能记住你们之间的所有对话，提供「连续感」。

更高级的是，新版模型还具备了数据分析能力，可以理解并分析用户上传的数据和图表。

而且，为了真正实现「让 AGI 惠及全人类」的愿景，GPT-4o 有 50 种语言的版本，并改进了推理的质量和速度，这也就意味着，全球 97% 的人口都可以使用 GPT-4o 了！

GPT-4o 刷新 SOTA，击败「开源 GPT-4」还免费用

GPT-4o 的具体性能表现如何？

接下来的图表中，可以看到，OpenAI 对此前所有堪称超越 GPT-4 版本的模型，做出了统一回应：

We're so back!

在传统基准测试中，GPT-4o 在文本、推理和编码智能方面，达到了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉能力方面创下了新高。

如下是，在文本评估中，GPT-4o 几乎碾压一众模型，包括 Claude 3 Opus，Gemini Pro 1.5，甚至是「开源版 GPT-4」Llama 3 400B。

GPT-4o 在零样本的 COT MMLU（常识问题）上创造了 88.7% 的新高分。

与传统的 5 个样本，没有使用 COT 的 MMLU 评测中，GPT-4o 更是创下了 87.2% 的新高分！

不过在 DROP 中，GPT-4o 的表现稍落后于 GPT-4 Turbo。

在音频 ASR 表现上，比起 Whisper-v3 ，GPT-4o 显著提高了所有语言的语音识别性能，尤其是对资源较少的语言。

再来看音频翻译能力，GPT-4o 刷新 SOTA，并在 MLS 基准上超过了 Whisper-v3。

另外，OpenAI 团队还对最新模型 GPT-4o 在 M3Exam 基准上进行了测试。

这是一种多语言和视觉评估基准，由来自其他国家标准化测试的多项选择题组成，有时还包括数字和图表。

结果如下表所示，在所有语言的测试中，GPT-4o 都比 GPT-4 强。

（在此，省略了 Swahili 和 Javanese 两种语言的视觉结果，因为这些语言只有 5 个或更少的视觉问题。）

最后，在视觉理解基准 EVALS 评估上，GPT-4o 也取得了领先的性能。

同样，击败了 GPT-4 Turbo、Gemini 1.0 Ultra、Gemini 1.5 Pro，以及 Claude 3 Opus。

ChatGPT 免费用户，可以访问的功能

OpenAI 官博还介绍了，ChatGPT 免费用户可以访问新模型加持下的功能，包括：

体验 GPT-4 级别的智能
从联网后的模型得到响应
分析数据并创建图表
畅聊你拍的照片
上传文件以帮助总结、撰写或分析
发现和使用 GPTs 和 GPT Store
用记忆构建更有用的体验

比如，你拍一张照片发给 ChatGPT，然后问「这个食物的营养价值是什么」？

ChatGPT 瞬间做出响应，解释了牛角包的营养价值。

免费用户还可以体验到联网搜索的快乐。（当然是最新最强模型）

「帮我推荐达拉斯 5 个适合夜晚约会的餐厅」。

ChatGPT 通过搜索 3 个网站，立即总结出了你想要的结果。

另外，免费福利还包括，在 GPT 商店中使用模型。

API 速度飙升 2 倍，再打骨折

此外，让开发者兴奋的是，GPT-4o 不仅应用在 ChatGPT 服务中，模型的 API 也被同步放出，可以部署各种下游应用程序上。

同时，API 的性能也有所改进，据说相比 GPT-4 Turbo，推理速度提升 2 倍，消息限制提高五倍，而且价格还会降低 50%。

OpenAI 开发者在线呼吁，赶快来体验。

ChatGPT 桌面版也来了

正如 Murati 一出场开宗明义的：对 OpenAI 来说，打造一款真正让所有人可用的产品，非常之重要。

为了让每个人无论身在何处，都能随时用上 ChatGPT，OpenAI 发布了 ChatGPT 的桌面版本。

它拥有桌面应用程序，和全新的用户界面，可以很轻易地和我们的工作流融为一体。

桌面版 ChatGPT APP

只需一个简单的快捷键——Option+ 空格键，就可以立即召唤桌面版 ChatGPT。

甚至，你也可以直接在应用程序中截图，并进行提问。

然后，让其帮你总结所截取的网页内容——「将其总结成 5 个主题，并列出行动计划」。

接下来，ChatGPT 一通炫技，嗖嗖嗖地解决了提出的问题。

你甚至，可以从你的电脑上直接与 ChatGPT 进行语音对话，点击桌面应用程序右下角的耳机图标，便可开始。

同时，OpenAI 还全面改版了 UI 界面，让它和用户的互动也变得更自然，更简单了。

神秘 gpt2 就是 GPT-4o！

「这么厉害的 GPT-4o，早已是你们的老熟人了」，ChatGPT 官方账号在线卖起关子。

这，究竟是怎么回事？

几天前，大模型 LMSYS 竞技场上，一个名为 gpt2 神秘模型突然现身，其性能甚至超越了 GPT-4。

注：最初以 gpt2 命名，现在升级为两个版本「im-also-a-good-gpt2-chatbot」和「im-a-good-gpt2-chatbot」

全网纷纷猜测，这个模型，可能就是 GPT-4.5/GPT-5。

就连 Altman 本人多次发贴，暗示 gpt2 的强大能力——

如今，gpt2 的身份，真的解密了。

OpenAI 研究科学家 William Fedus 刚刚发文，一直在测试的版本「im-also-a-good-gpt2-chatbot」就是 GPT-4o。

以下是它一直以来的表现。

im-also-a-good-gpt2-chatbot 总 ELO 得分，超过了最新的 gpt4-turbo-2024-04-09。

但 ELO 最终得分，会受到「提示」难度的限制（即无法在类似「你好吗」这种简单提示上取得任意高的胜率）。

OpenAI 团队发现，在更难的提示集合上——尤其是编程方面——存在更大的差距：

而 GPT-4o 在我们此前的最佳模型上，ELO 甚至可以提高 100 分。

最关键的是，GPT-4o 不仅是全世界最好的模型，甚至可以在 ChatGPT 中免费用。

另一边，LMSYS 发布了最新的 gpt2-chatbots 结果，已经跃升至大模型竞技场榜首！

奥特曼对此大赞，「令人惊叹的工作」！

OpenAI 联创 Greg Brockman 表示，「初步的指标看起来很有前景」。

参考资料：

https://twitter.com/gdb/status/1790071008499544518

https://openai.com/index/hello-gpt-4o/

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

部分交易

黑芝麻智能｜ClickPaaS｜第四范式｜讯能集思｜探维科技｜不停科技｜ PROPHESEE｜本末科技｜开为科技｜华瑞指数云｜罕华科技｜群脉科技｜云蝠智能｜九四智能｜盎锐科技｜大麦地｜星辰空间｜星测未来｜星空动力｜九天微星｜范特科技｜薪人薪事｜优蓝国际｜颐圣智能｜超维知药｜知行合一｜微密医疗｜乐准智芯｜硅基智能｜极芯通讯｜恒百锐｜信迈医疗｜博志研新｜诺领科技｜新通药物｜普罗亭｜零犀科技｜深蓝航天｜达利凯普｜九天微星｜瑞莱生物｜三盟科技｜驭势科技｜江行智能

北拓研究

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

App Store

Android