全面超越 GPT4:Google Gemini 多模态全介绍
AIGC研修社
2023-12-07 08:49
订阅此专栏
收藏此文章

昨天凌晨 Google Gemini 发布,具备多种多模态的性能。在之前 openai 的开发者大会的那篇文章里我也提到了 GPTS 的发布会可能是 openai 最后的高光了,在经历了狗血的内部权斗之后,来自最强对手的 google 又给 openai 盖上了棺材盖,真是水深火热。

基本上内容就是秀了全部多模态的功能,更高,更快,更强更全面,然后还不忘重点戳一下 openai 的痛点 “安全” ,不仅性能更好,更快,还更安全,就问 openai 怕不怕。

官方介绍:https://blog.google/technology/ai/google-gemini-ai/#sundar-note

技术文档:https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

官网页面:https://deepmind.google/technologies/gemini/#capabilities




谷歌和 Alphabet CEO 桑达尔·皮查伊的说明:
每一次科技变革都是一个推进科学发现、加速人类进步和改善生活的机会。我相信,我们现在看到的人工智能转型,将是我们有生之年见证的最深远的变革,其影响远远大于移动技术或网络技术的转型。人工智能具有为全球各地的人们创造机会的潜力,从日常生活到非凡成就。它将带来新的创新和经济进步浪潮,并在我们未曾见过的规模上推动知识、学习、创造力和生产力。
这就是让我感到兴奋的:将人工智能的帮助带给世界上每个人。
作为一家以人工智能为先的公司,我们踏上这段旅程已经近 8 年,进步的步伐只会越来越快:成百上千万的人们现在可以使用我们产品中的生成式人工智能做一年前做不到的事情,从找到更复杂问题的答案到使用新的工具进行协作和创作。与此同时,开发者也在使用我们的模型和基础设施构建新的生成式人工智能应用程序,世界各地的创业公司和企业也在我们的人工智能工具的帮助下蓬勃发展。
我们正在见证难以置信的发展势头,但这只是可能性的冰山一角。
在这项工作中,我们采取了大胆而负责任的方法。这意味着在研究中保持雄心勃勃,追求能给人民和社会带来巨大利益的功能,同时建立防范机制,并与政府和专家合作应对风险,因为人工智能变得越来越强大。我们继续投资于最好的工具、基础模型和基础设施,并根据我们的人工智能原则,将它们引入我们的产品和带给其他人。
现在,随着 Gemini 的推出,我们的人工智能之旅迈入了新的阶段,这是我们目前最强大、最通用的模型,在许多领先基准测试中都有顶尖性能。我们的首个版本 Gemini 1.0 针对不同规模进行了优化:超级、专业和微型。这些是 Gemini 时代的第一批模型,也是我们今年初组建 Google DeepMind 时的愿景的首次实现。这批新模型代表着我们公司有史以来最大的科学和工程项目之一。我真的对未来充满期待,也为 Gemini 为全世界各地的人们带来的机会感到兴奋。
- 桑达尔

   Gemini 介绍

作者:Google DeepMind 的首席执行官兼联合创始人 Demis Hassabis,代表 Gemini 团队
人工智能一直是我毕生的研究工作,也是许多我的研究同事的工作重心。从我十几岁时为电脑游戏编程人工智能,到我作为神经科学研究员试图理解大脑的工作原理的多年时间里,我一直坚信,如果我们能建造更智能的机器,我们就能利用它们以难以置信的方式造福人类。
这种对一个由人工智能负责任地赋能的世界的承诺,继续推动着我们在 Google DeepMind 的工作。长期以来,我们一直想要构建新一代人工智能模型,这些模型的灵感来自于人们理解和互动的方式。这种人工智能感觉起来不像一款智能软件,而更像一些实用和直观的东西——一位专家助手或助理。
今天,随着我们推出 Gemini,我们离这个愿景更近了一步,这是我们迄今为止构建的最强大、最通用的模型。
Gemini 是 Google 包括 Google Research 在内的多个团队大规模协作的结果。它从零开始构建,是多模式的,这意味着它可以泛化,并可以无缝理解、操纵和组合不同类型的信息,包括文本、代码、音频、图像和视频。

Gemini 简介:我们最大和最强大的 AI 模型

Gemini 也是我们迄今最灵活的模型——能够高效运行在从数据中心到移动设备的各种环境中。它的顶尖功能将显著提高开发者和企业客户构建和扩展人工智能的方式。
我们优化了首个版本 Gemini 1.0 的三种不同规模:
  • Gemini 超级 - 我们最大和最强大的模型,用于高度复杂的任务。
  • Gemini 专业 - 我们最佳的跨范围任务可扩展模型。
  • Gemini 微型 - 我们最高效的用于设备上的任务模型。




   顶尖性能


我们已经对 Gemini 模型进行了严格的测试,并评估了它们在各种任务上的性能。从自然图像、音频和视频理解到数学推理,Gemini 超级在大型语言模型研发中广泛使用的 32 个学术基准测试中的 30 个上的性能超过了当前最先进的结果。

Gemini 超级的得分达到 90.0%,是第一个在 MMLU( 大规模多任务语言理解 ) 测试中战胜人类专家的模型,该测试结合了数学、物理、历史、法律、医学和伦理学等 57 个学科,用于测试世界知识和解决问题的能力。
我们对 MMLU 的新的基准测试方法使 Gemini 能够利用其推理能力在回答困难问题之前进行更仔细的思考,这导致相比仅使用第一印象而言有了显著的改进。

Gemini 在一系列基准测试中的表现超过了当前最先进水平,包括文本和编码。
Gemini 超级在新的 MMMU 基准测试中也取得了 59.4% 的最先进成绩,该基准测试由跨域的多模态任务组成,需要慎重的推理。
在我们测试的图像基准中,Gemini 超级的表现优于此前最先进的模型,没有获得文字识别 (OCR) 系统的帮助,后者会从图像中提取文本进行进一步处理。这些基准测试突出了 Gemininative 的多模态性,并表明了 Gemini 更复杂推理能力的早期迹象。
更多细节请参见我们的 Gemini 技术报告。
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

Gemini 在一系列多模态基准测试中表现超过当前最先进水平。



   下一代功能


迄今为止,创建多模态模型的标准方法是为不同的模态训练独立的组件,然后将它们拼接在一起,以粗略地模拟部分此类功能。这些模型有时在执行某些任务 ( 如描述图像 ) 方面表现不错,但在更概念化和复杂的推理方面则较难应付。
我们设计 Gemini 以原生多模态性,一开始就在不同模态上进行预训练。然后,我们用额外的多模态数据对其进行微调,以进一步提高其效果。这有助于 Gemini 从零开始无缝理解和推理各种输入,远胜过现有的多模态模型,其功能在几乎所有领域都是最先进的。
了解更多关于 Gemini 功能的信息,并了解它的工作原理。
https://deepmind.google/technologies/gemini/#build-with-gemini


复杂的推理

Gemini 1.0 复杂的多模态推理功能可以帮助理解复杂的文字和视觉信息。这使其在大量数据中发现难以分辨的知识方面具有独特的技能。
它从数十万份文件中读取、过滤和理解信息以提取见解的非凡能力,将有助于在科学、金融等许多领域以数字速度实现新的突破。

Gemini 开启新的科学见解

   理解文本、图像、音频等

Gemini 1.0 经过训练,可以同时识别和理解文本、图像、音频等,所以它可以更好地理解细微的信息,并回答与复杂主题相关的问题。这使得它特别擅长解释数学、物理等复杂学科的推理。

Gemini 解释数学和物理中的推理


   高级编码

我们的首个 Gemini 版本可以理解、解释和生成世界上最流行的编程语言 ( 如 Python、Java、C++ 和 Go) 中的高质量代码。其跨语言工作和复杂信息推理的能力,使其成为世界上领先的编码基础模型之一。
Gemini 超级在几个编码基准测试中表现出色,包括 HumanEval( 评价编码任务性能的重要行业标准 ) 和 Natural2Code( 我们的内部留出数据集,使用作者生成的源代码而不是网络信息 )。
Gemini 也可以用作更高级编码系统的引擎。两年前,我们推出了 AlphaCode,这是第一个在编程竞赛中达到有竞争力水平的 AI 代码生成系统。
使用 Gemini 的定制版本,我们创建了一个更高级的代码生成系统 AlphaCode 2,它擅长解决超越编码的复杂数学和理论计算机科学的竞争性编程问题。
Gemini 在编程和竞赛性编程中表现卓越。
在与原始 AlphaCode 相同的平台上进行评估时,AlphaCode 2 显示出巨大的改进,解决的问题几乎加倍,我们估计它的表现优于 85% 的竞赛参与者——相比之下,AlphaCode 接近 50%。当程序员通过定义代码样本应遵循的某些属性来与 AlphaCode 2 合作时,它的表现会更好。
我们很高兴看到程序员越来越多地将高能力的 AI 模型用作协作工具,这些工具可以帮助他们推理问题,提出代码设计并协助实现——因此他们可以更快地发布应用程序和设计更好的服务。
更多详细信息请参见我们的 AlphaCode 2 技术报告。
https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf


   更高的可靠性、可扩展性和效率

我们使用谷歌自主设计的 Tensor Processing Unit(TPU)v4 和 v5e 在针对 AI 优化的基础设施上大规模训练了 Gemini 1.0。我们将其设计为训练起来最可靠、可扩展的模型,也是效率最高的服务模型。
在 TPU 上,Gemini 的运行速度明显快于较早、较小和功能较弱的模型。这些定制设计的 AI 加速器一直在 Google 为数十亿用户提供服务的 AI 驱动产品的核心,如搜索、YouTube、Gmail、Google 地图、Google Play 和 Android。它们还使世界各地的公司能够高效、低成本地训练大规模的 AI 模型。
今天,我们宣布迄今为止最强大、最高效和可扩展的 TPU 系统 Cloud TPU v5p,这是为训练尖端 AI 模型而设计的。这一下一代 TPU 将加速 Gemini 的开发,并帮助开发者和企业客户更快地训练大规模生成式 AI 模型,使新产品和功能更快到达客户。
一排云 TPU v5p 人工智能加速器超级计算机在谷歌数据中心中。

   与责任和安全性融为一体

在谷歌,我们致力于在所做的一切中推进大胆和负责任的人工智能。在谷歌人工智能原则和我们产品中的可靠安全策略的基础上,我们正在增加新的保护措施,以适应 Gemini 的多模态功能。在开发的每个阶段,我们都会考虑潜在的风险,并努力测试和减轻这些风险。
Gemini 进行了谷歌迄今为止任何 AI 模型中最全面的安全性评估,包括偏见和毒性评估。我们对网络攻击、劝说和自治等潜在风险领域进行了新颖的研究,并应用了谷歌研究的一流对抗测试技术,以帮助识别 Gemini 部署前的关键安全问题。
为了识别我们内部评估方法中的盲区,我们正在与各界外部专家和合作伙伴合作,在一系列问题上对我们的模型进行压力测试。
为了在 Gemini 的训练阶段诊断内容安全问题,并确保其输出遵循我们的政策,我们使用了诸如艾伦人工智能研究所专家开发的“真实毒性提示”等基准测试,其中包含 10 万个从网络上提取的具有不同程度毒性的提示。这项工作的更多细节即将推出。
为了限制伤害,我们构建了专用的安全分类器来识别、标记和筛选出涉及暴力或负面定型观念的内容。与可靠的过滤器相结合,这种分层方法旨在使 Gemini 对每个人来说都更安全、更包容。此外,我们正在继续解决模型 ( 如事实性、依据性、归属性和证实性 ) 的已知挑战。
责任和安全将始终是我们模型开发和部署的中心。这需要协作建设的长期承诺,因此我们正在通过 MLCommons、前沿模型论坛及其人工智能安全基金等组织,与行业和更广泛的生态系统合作,制定最佳实践并设置安全和安保基准。我们设计的安全 AI 框架 (SAIF) 旨在帮助公共和私营部门减轻 AI 系统特有的安全风险。随着 Gemini 的开发,我们将继续与全球的研究人员、政府和民间社会团体合作。

   将 Gemini 推向全世界

Gemini 1.0 现在正在一系列产品和平台上推出:


Gemini Pro 入驻谷歌产品

我们正在通过谷歌产品向数十亿人们带来 Gemini。
从今天开始,Bard 将使用 Gemini Pro 的微调版本进行更高级的推理、规划、理解等。这是 Bard 推出以来最大的升级。它将在 170 多个国家和地区提供英语版本,我们计划在不久的将来扩展到不同的模态,并支持新的语言和地点。
我们也将 Gemini 引入 Pixel。Pixel 8 Pro 是第一款搭载 Gemini Nano( 我们最高效的用于设备上任务的模型 ) 的智能手机,它正在为录音机应用中的“摘要”等新功能提供支持,并从 WhatsApp 开始,逐步推出到 Gboard 中的“智能回复”,更多消息应用将在明年推出。
在未来几个月里,Gemini 将在我们的更多产品和服务中提供,如搜索、广告、Chrome 和 Duet AI。
我们已经开始在搜索中实验 Gemini,其中它使我们的搜索生成体验 (SGE) 对用户更快,在美国英语中潜伏期减少了 40%,与此同时质量也有所提高。


使用 Gemini 构建

从 12 月 13 日开始,开发者和企业客户可以通过 Google AI Studio 中的 Gemini API 或 Google Cloud Vertex AI 访问 Gemini Pro。
Google AI Studio 是一个免费的基于 Web 的开发者工具,可使用 API 密钥快速原型和启动应用程序。当您需要一个完全托管的 AI 平台时,Vertex AI 允许您使用 Gemini 进行自定义,具有完全的数据控制权,并从 Google 云的其他功能中获得企业安全性、安全性、隐私和数据治理与合规性的好处。
Android 开发人员也将能够通过 AICore 构建 Gemini Nano,我们最高效的用于设备上任务的模型,AICore 是 Android 14 中一项新的系统功能,从 Pixel 8 Pro 设备开始提供。注册 AICore 的早期预览版。


Gemini 超级即将推出

对于 Gemini 超级,我们目前正在完成广泛的信任和安全检查,包括值得信赖的外部方进行的红队测试,并在将其广泛提供之前,使用微调和来自人类反馈的强化学习 (RLHF) 进一步完善该模型。
作为此流程的一部分,我们会将 Gemini 超级提供给选定的客户、开发者、合作伙伴以及安全和责任专家,以便他们在明年年初向开发者和企业客户正式推出之前,进行早期实验和反馈。
明年年初,我们还将推出 Bard Advanced,一个全新的尖端 AI 体验,可访问我们最好的模型和功能,从 Gemini 超级开始。


   Gemini 时代:启用创新未来

这是人工智能发展中的一个重要里程碑,也是我们在 Google 继续快速创新和负责任地提升模型功能方面的新时代的开始。
到目前为止,我们在 Gemini 上取得了巨大进步,我们正努力为未来版本进一步扩展其功能,包括规划和记忆的进步,以及增加上下文窗口来处理更多信息,以提供更好的响应。
我们对一个由 AI 负责任赋能的世界所带来的惊人可能性充满期待——这是一个创新未来,它将增强创造力、拓展知识、推进科学,并改变世界上数十亿人的生活和工作方式。

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

AIGC研修社
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开