ChatGPT 再次进化!新增“看、听、说”三大能力
AGI创新实验室
2023-09-26 17:53
订阅此专栏
收藏此文章

图片来源:由无界 AI 生成

太激烈了!昨天 Anthropic 刚刚从谷歌那里拿到 40 亿美元巨额融资,今天 OpenAI 就宣布了 ChatGPT 有史以来最大规模的一次升级。如果说从 ChatGPT 到 GPT-4 是量的提升,那么这次升级就是质的飞跃。曾经只能“写”的 ChatGPT,从此刻起,又有了“看、听、说”三大能力。

这是 OpenAI 对竞争对手 Anthropic 的最直接回应。没有任何预先报道,一切都这么突然。OpenAI 有一次拉开了与竞争对手的差距。

总结这次 ChatGPT 升级:引入新的语音和图像功能。提供一种新的、更直观的界面,允许进行语音对话或向 ChatGPT 展示您正在谈论的内容。

注:这次升级将会在未来两周推送给 ChatGPT plus 和企业版用户。

会说会听的 ChatGPT

你将可以使用语音说给 ChatGPT 听,并获得回复。 随时随地与它交谈,让它给你讲故事,回答餐桌上讨论的问题等等。

要开始使用语音功能,可以在移动 App 上的“设置”中选择→“新功能”,然后选择加入语音对话。 然后,点击主屏幕右上角的耳机按钮,从五种不同的声音中选择您喜欢的声音。

新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的样本语音中生成类似人类的音频。 OpenAI 与专业配音演员合作创作了每一个声音,还使用了 OpenAI 的开源语音识别系统 Whisper 将您的口语转录为文本。

会看图的 ChatGPT

ChatGPT 现在能够看懂图像了。你可以向 ChatGPT 展示一张或多张图像,并向它提出问题。例如,

  • 你的烧烤炉无法启动,你可以把图片拍下来并给 ChatGPT 查看,让它给出无法启动的原因。

  • 或者拍一张冰箱内食品的照片,让 ChatGPT 为你制定一份饮食计划。

  • 或者给它一张复杂的图表,让它为你提取数据。

这项图像推理能力有点逆天了,效率瞬间拉满。

这项能力由多模态的 GPT-3.5 和 GPT-4 提供支持。 这些模型将其语言推理技能应用于广泛的图像,例如照片、屏幕截图以及包含文本和图像的文档。

为 ChatGPT 添加图像和语音能力是 OpenAI 构建 AGI 的一部分。

新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成语音,为许多创造性和以可访问性为重点的应用打开了大门。 然而,这些功能也带来了新的风险,例如恶意行为者可能冒充公众人物的语音或实施欺诈。

因此,OpenAI 目前将生成式语音聊天技术局限于特定用例。 这些语音是由与 OpenAI 直接合作的配音演员创建的。 另外还有一些其他的合作伙伴,例如,Spotify 正在利用这项技术来试点其语音翻译功能,该功能可以通过播客自己的声音将播客翻译成其他语言,从而帮助播客扩大讲故事的范围。


【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

AGI创新实验室
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开