ChatGPT 再次进化！新增“看、听、说”三大能力 - Foresight News

ChatGPT 再次进化！新增“看、听、说”三大能力

2023-09-2617:53

AGI创新实验室

2023-09-26 17:53

AGI创新实验室

2023-09-26 17:53

收藏文章

订阅专栏

图片来源：由无界 AI 生成

太激烈了！昨天 Anthropic 刚刚从谷歌那里拿到 40 亿美元巨额融资，今天 OpenAI 就宣布了 ChatGPT 有史以来最大规模的一次升级。如果说从 ChatGPT 到 GPT-4 是量的提升，那么这次升级就是质的飞跃。曾经只能“写”的 ChatGPT，从此刻起，又有了“看、听、说”三大能力。

这是 OpenAI 对竞争对手 Anthropic 的最直接回应。没有任何预先报道，一切都这么突然。OpenAI 有一次拉开了与竞争对手的差距。

总结这次 ChatGPT 升级：引入新的语音和图像功能。提供一种新的、更直观的界面，允许进行语音对话或向 ChatGPT 展示您正在谈论的内容。

注：这次升级将会在未来两周推送给 ChatGPT plus 和企业版用户。

会说会听的 ChatGPT

你将可以使用语音说给 ChatGPT 听，并获得回复。随时随地与它交谈，让它给你讲故事，回答餐桌上讨论的问题等等。

要开始使用语音功能，可以在移动 App 上的“设置”中选择→“新功能”，然后选择加入语音对话。然后，点击主屏幕右上角的耳机按钮，从五种不同的声音中选择您喜欢的声音。

新的语音功能由新的文本转语音模型提供支持，能够仅从文本和几秒钟的样本语音中生成类似人类的音频。 OpenAI 与专业配音演员合作创作了每一个声音，还使用了 OpenAI 的开源语音识别系统 Whisper 将您的口语转录为文本。

会看图的 ChatGPT

ChatGPT 现在能够看懂图像了。你可以向 ChatGPT 展示一张或多张图像，并向它提出问题。例如，

你的烧烤炉无法启动，你可以把图片拍下来并给 ChatGPT 查看，让它给出无法启动的原因。
或者拍一张冰箱内食品的照片，让 ChatGPT 为你制定一份饮食计划。
或者给它一张复杂的图表，让它为你提取数据。

这项图像推理能力有点逆天了，效率瞬间拉满。

这项能力由多模态的 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于广泛的图像，例如照片、屏幕截图以及包含文本和图像的文档。

为 ChatGPT 添加图像和语音能力是 OpenAI 构建 AGI 的一部分。

新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成语音，为许多创造性和以可访问性为重点的应用打开了大门。然而，这些功能也带来了新的风险，例如恶意行为者可能冒充公众人物的语音或实施欺诈。

因此，OpenAI 目前将生成式语音聊天技术局限于特定用例。这些语音是由与 OpenAI 直接合作的配音演员创建的。另外还有一些其他的合作伙伴，例如，Spotify 正在利用这项技术来试点其语音翻译功能，该功能可以通过播客自己的声音将播客翻译成其他语言，从而帮助播客扩大讲故事的范围。

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

Download QR Code