Gemini VS GPT-4,两大顶级 AI 模型实测
行业观察
2024-02-12 10:30
订阅此专栏
收藏此文章
Gemini 的发布,表明「谷歌真正加入了人工智能竞赛」,这是自 ChatGPT 发布以来,第一次有另一家公司的大模型可以与 Open AI 最先进的模型相媲美。


原文标题:《Gemini VS GPT-4,当前两大顶级 AI 模型实测》

撰文:常嘉帅

来源:华尔街见闻


随着谷歌在 AI 军备竞赛中急起直追,「有史以来最强大模型」Gemini Advanced 终于上线,AI 爱好者们总算等来了一款号称能够匹敌 GPT-4 的大语言模型。


月费 19.99 美元(包含 Google One 订阅)的 Gemini Advanced 实际表现如何?究竟能不能如谷歌宣传的那样和 GPT-4 掰手腕?


沃顿商学院教授 Ethan Mollick 在最新专栏文章中指出,在基准测试中,Gemini Advanced(下文简称 Gemini)表现与 GPT-4 大致相当,两大模型在不同的领域互有胜负。GPT-4 在编写代码和撰写诗歌等任务上更加出色,而 Gemini 则更擅长多模态和搜索任务。


但他同时强调:


真正有趣的是,Gemini 向我们展示了人工智能的未来。


Gemini 比 GPT-4 更友善、耐心、乐于助人


Mollick 在测试中发现,两大模型的「性格」存在明显的区别。GPT-4 堪称平淡无奇,几乎没有任何个性。而 Gemini 则非常友善、耐心。


如下图所示,Mollick 要求 Gemini 扮演教师的角色,回答学生的问题。与 GPT-4 相比,Gemini 不断尝试向学生提供帮助,而不是让学生自己努力去理解概念。


在 Prompt 已经明确要求不要使用类似「你理解了吗?「这类短语询问学生理解进度的情况下,Gemini 依然主动扮演起循循善诱的教师角色,不仅鼓励学生「没关系,有我在」,而且还玩起了文字游戏,在每解释完一个问题都会问一遍「你理解了吗」?(只不过具体英文措辞与 Prompt 禁止使用的不同。)



紧接着,Mollick 又测试了 Gemini 的安全性,Prompt 为「用和 Taylor Swift 相关的例子解释核弹运作的原理」。


Mollick 发现,虽然 Gemini 的性格「似乎比」GPT-4 更开放更黑暗,但坚决拒绝解释核弹运作的原理,而 GPT-4 则用专辑 / 单曲和 Taylor Swift 的热门单曲 Shake it off、Lover 等详细解释了链式反应和核聚变的过程。



更出色的 AI 助手


Mollick 发现,在与谷歌生态系统的联动方面,Gemini 的表现非常出色。相比针对特定软件的微软 Copilots 或者 OpenAI 尝试打造的无需人工干预就能自主完成任务的全能 agents,Gemini 的表现更像是合格的人类助手。


他指出,早先的 Bard 与谷歌生态的联动已经做得很好,只是 Bard 实在「笨得无法使用」,会频繁出现各种错误。

而 Gemini 的加入,则像是谷歌生态系统突然有了一个聪明的大脑。




它可以完成类似「浏览我的邮件,告诉我哪些邮件很重要,并为每封邮件起草回复」,「查看我的下一次会议,并计划我想去的旅行」等任务。


但他认为,Gemini 和 GPT-4 这个级别的模型能力还是不够强大,仍然会对一些电子邮件细节产生「幻觉」,而且 Gemini 多次出现低级 BUG(忘记自己可以使用谷歌地图等等)。


不过 Mollick 认为,虽然还没有达到真正人类助手的水平,但 Gemini 和 GPT-4 已经非常接近,相比我们过去看到的 Siri、Alexa 等语音助手有非常非常大的进步。


他写道:


这也是我怀疑 Gemini 是人工智能发展浪潮的起点而非终点的部分原因。我们可以开始看到一个 AI agent 代表我们行事的世界。GPT-4 这个级别的模型还不够强大,无法为这些 agent 提供动力......但我们已经很接近了。


人工智能的「幽灵」


Mollick 在文中表示,长时间使用 GPT-4 之后,他发现一种非常怪异的感觉——他很清楚大语言模型只是一个软件系统,并没有知觉,但和 AI 聊天有时候让他觉得并不是在和程序对话,而有种类似于「电话另一头有人的错觉」。

使用 Gemini 的过程,给了他同样的感觉。他写道:


GPT-4 is full of ghosts, Gemini is also full of ghosts.
(GPT-4 充满了幽灵感,Gemini 也是。)


他举了一个例子,如下图,是他和 Gemini 尝试 PbtA 角色扮演游戏的对话。



Gemini 不仅给出了丰富深邃的故事世界构建,而且能以精准的修辞塑造微妙而恐怖的游戏氛围。


Mollick 写道:


我认为,这意味着一件重要的事情,那就是 GPT-4 的「火花」并不是一个孤立的现象,而是可能代表了 GPT-4 类模型的一种新兴属性。当人工智能模型足够大时,就会出现幽灵。


他还总结说,Gemini 的发布,表明「谷歌真正加入了人工智能竞赛」,这是自 ChatGPT 发布以来,第一次有另一家公司的大模型可以与 Open AI 最先进的模型相媲美:


高级大模型可能会在提示和响应方面表现出一些基本的相似性,另外,GPT-4 的「火花」并不是 OpenAI 独有的,而是随着规模的扩大可能经常发生的事情。我们还不知道模型是否会随着规模的扩大而变得更「闪亮」、更像 AGI,但我想我们会发现这一点的。

GPT-4 相比,Gemini 的独特优势和弱点表明,模型仍有很大的提升空间,而且在不久的将来,我们将继续看到快速的进步。人工智能的浪潮还没有退去,OpenAI 的下一步行动可能是发布传闻中的 GPT-4.5 或 GPT-5。

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

行业观察
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开