1. 简单百科
  2. Gemini

Gemini

Gemini是谷歌开发的一款人工智能AI模型,该模型于2023年12月6日推出Gemini1.0版本,包括Gemini Ultra、Gemini Pro和Gemini Nano三个不同规格。

谷歌于2023年4月就开启了OpenAI的研究计划,合并了两个大型人工智能团队。2023年8月,谷歌在其面向印度日本用户的搜索工具中引入了生成式人工智能,并于9月,向少数公司开放了其对话式人工智能软件Gemini的早期版本。12月6日,谷歌正式推出Gemini 1.0版本,包括Gemini Ultar、Gemini Pro、Gemini Nano三种不同的规格。2024年2月15日,谷歌发布Gemini 1.5。5月15日,谷歌更新升级Gemini1.5Pro版本,同时推出Gemini1.5Flash轻量化小模型。2025年3月26日,谷歌发布Gemini 2.5系列人工智能推理模型。

Gemini内置了谷歌自研AI超算芯片Cloud TPU V5P,它是第一个在MMLU基准上优于人类专家的模型。基于从头开始构建的多模型,使得它能够同时识别文本、图像、音频、视频和代码五种类型信息,还可以理解并生成流行的编程语言(如Python、Java、C++)的高质量代码,并拥有全面的安全性评估。

发展历程

2023年4月,字母控股谷歌母公司)首席执行官桑达尔·皮查伊(Sundar Pichat)合并了两个大型人工智能团队,开启OpenAI计划。2023年5月,谷歌在开发者大会上透露正在开发AI大模型Gemini。2023年8月,谷歌在其面向印度日本用户的搜索工具中引入了生成式人工智能,该工具将向提示性语言和摘要中显示文本或可视化结果,同时,它还以每位用户每月30美元的价格向企业客户提供其人工智能工具。2023年9月15日,The Information报道称,谷歌已经向少数公司开放了其对话式人工智能软件Gemini的早期版本。2023年11月16日,谷歌表示推迟发布AI模型Gemini。

2023年12月6日,Gemini初始版本在谷歌的聊天机器人Bard中推出,同时优化推出Gemini 1.0版本,包括三个不同体量的模型:用于处理“高度复杂任务”的Gemini Ultra、用于处理多个任务的Gemini Pro和用于处理“终端上设备的特定任务”的Gemini Nano。Gemini是一种可以处理文本、图像和视频的新型 AI 模型,内置谷歌自研AI超算芯片Cloud TPU V5P。戴密斯·哈萨比斯(Demis Hassabls)对此表示:“Gemini是谷歌各团队大规模协作的结果,它是从头开始构建的多模式,这意味着它可以概括和无缝理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。”此外,Pixel引入了Gemini,搭载了Gemini Nano的Pixel 8 Pro,支持“录音机”应用中的“总结”等新功能,并在Gboard中推出“智能回复”功能。Gemini是第一个在MMLU(大规模多任务语言理解)方面优于人类专家的模型。

2024年2月15日,谷歌发布Gemini 1.5。Gemini 1.5版本中首个登场的多模态通用模型Gemini 1.5 Pro,可以把稳定处理上下文的上限扩大至100万tokens,并且是在Kalamang语翻译至英语的测试中表现最好的模型。5月15日,谷歌更新升级Gemini1.5Pro版本,同时推出Gemini1.5Flash轻量化小模型。Gemini 1.5 Pro升级到200万tokens,并全面支持Workspace,Gemini 1.5 Pro会面向全球开发者开放。同时,谷歌还宣布推出基于Gemini 1.5 Pro的Gemini Advanced,升级后的Gemini Advanced可以处理“多个大型文档,总计最多1500页,或汇总100封电子邮件,同时支持35多种语言和150多个国家及地区。

2025年2月14日,Gemini AI上线了一项“全局记忆”功能。 2月15日,谷歌Gemini AI已开始向免费版用户开放文件上传和分析功能,此前该功能仅向Gemini Advanced付费用户提供。截至该日,该功能已在Gemini安卓应用和网页版中上线,海外没有订阅Gemini的用户现在也可以直接从设备本地或Google Drive谷歌云盘中应用程序上传文件。2月,代码显示,谷歌正在开发一项视频生成功能,预计会在以后的更新中添加到Gemini中。谷歌应用v16.6.23包含的代码暗示谷歌将为Gemini添加视频生成功能。3月26日,谷歌发布Gemini 2.5系列人工智能推理模型。该系列模型在回答问题前会“思考”片刻;该模型登陆谷歌开发者平台Google AI Studio,同时向每月支付20美元订阅“Gemini Advanced”的用户开放。Gemini 2.5 Pro支持高达100万token的超大上下文窗口,单次可以处理约75万英文单词。

Gemini 1.0分类

Gemini 能够在从数据中心到移动设备的所有设备上运行。其功能将增强开发人员和企业客户使用 AI 构建和扩展的方式。谷歌针对三种不同的尺寸优化了第一个版本 Gemini 1.0,来支持广泛的应用程序。

(参考来源:)

功能和服务

复杂推理能力

Gemini 1.0具有复杂多模态推理能力,可以帮助理解复杂的书面和视觉信息,它能够发现海量数据中难以辨别的知识。在学习方面,它可以更好地理解细微的信息,并回答与复杂主题相关的内容,从而能够对数学和物理等复杂学科的问题进行推理。Gemini 1.0通过阅读、过滤和理解信息具有了从数十万份文件中提取知识的能力,有助于科学、金融等诸多领域取得新突破。

识别与理解力

Gemini 1.0采用变压器架构和高效的Attention机制,可以同时识别和理解文本、图像、音频等,它能够更全面地理解输入中信息的细节并生成任务。在图像基准方面,Gemini Ultra无需对象字符识别(OCR)系统的帮助即可从图像中提取文本。视频理解方面,Gemini模型通过将视频编码为大语境窗口中的一系列帧完成的,视频帧或图形可以自然地与文本或音频交织在一起,可以处理可变输入分辨率。

Gemini Ultra作为Gemini中最强大的一款规格,在MMLU(大规模多任务语言理解数据集)中的得分率高达90.0%,首次超越了人类专家。MMLU数据集包含数学、物理、历史、法律、医学和伦理等57个科目,Gemini Ultra结合考虑模型不确定性的思维链提示方法,产生包含k个样本的思维链,如果在预设阈值之上存在共识,则选择此答案,否则它将返回到基于最大似然选择的样本,而不需要思考链。

高级编码能力

Gemini可以理解、解释和生成流行的编程语言(如Python、Java、C++和Go)的高质量代码,能够跨语言工作并推理复杂信息,还可以用作高级编码系统的引擎。例如,AlphaCode团队构建的AlphaCode2,将Gemini的推理能力与搜索和工具使用相结合,解决竞争性编程问题。在Codeforces竞争性编程平台上,AlphaCode 2在进入者中排名前15%。

安全功能方面

Gemini拥有全面的安全性评估,包括偏差和病毒等。谷歌应用了Google Research的对抗性测试技术,依据 Google AI 原则和严格的产品安全政策,增加了新的保护措施,全面考虑潜在风险,并在开发的每个阶段进行测试和风险降低。此外,谷歌与外部专家合作进行压力测试来确保内容安全,且建立了专门的安全分类器来识别和过滤有害内容,确保Gemini更加安全和包容。此外,Gemini Nano可以在使用特殊芯片的终端设备上运行,没有网络连接的情况下也可以使用此模型,不会造成个人数据的丢失。比如:Pixel 8 Pro 在录音机应用中使用 Gemini Nano 来总结会议音频,即使没有网络连接也可以实现。

全局记忆功能

“全局记忆”功能赋予Gemini AI前所未有的能力,能够全面记录并存储用户与其之间的所有过往对话。借助全局记忆,用户在与AI互动时,彻底告别频繁翻阅对话历史的繁琐,轻松接续未竟话题。Gemini AI凭借对先前对话内容的深刻记忆,自动衔接上下文,显著简化了人机交互流程,提升了效率与便捷性。全局记忆功能作为Gemini Advanced服务的专属特权,率先面向英语用户开放,并计划在数周内逐步扩展至其他语言。

关键技术

Gemini最大亮点之一就是原生多模态大模型,一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。Gemini 1.0系列内置自研 AI 超算芯片Cloud TPU v5p,TPU是谷歌为神经网络设计的专用芯片,经过优化可加快机器学习模型的训练和推断速度。与TPU v4相比,TPU v5p的浮点运算性能提升了两倍,在高带宽内存方面提高了3倍。TPU v5p能够提供459 teraFLOPS(每秒可执行459万亿次浮点运算)的bfloat16(16位浮点数格式)性能或918 teraOPS(每秒可执行918万亿次整数运算)的Int8(执行8位整数)性能,支持95GB的高带宽内存,能够以2.76 TB/s的速度传输数据。

模型训练

Gemini模型建立在Transfomer解码器上,这些解码器通过架构和模型优化的改进来增强,从而能够实现大规模的稳定训练并在谷歌张量处理单元上优化推理。它们被训练成支持32k上下文长度,并采用有效的注意力机制。

研发团队使用TPUv5e和TPUv4对Gemini模型进行训练,TPU是谷歌为神经网络设计的专用芯片,经过优化可加快机器学习模型的训练和推断速度。TPUv4 加速器部署在 4096 个芯片的“SuperPods”中,每个芯片连接到专用的光学开关,可以在大约 10 秒的时间内动态重新配置 4x4x4 芯片立方体到任意 3D 环形拓扑。

Gemini在一个多模态和多语言的数据集上训练,预训练数据集使用来自Web文档、书籍和代码的数据,包括图像、音频和视频数据。使用SentencePiece标记器来提高推断词汇量。研发团队采用启发式规则和基于模型的分类器将所有数据集应用质量过滤器,执行安全过滤以消除有害内容。为了实现高效的模型训练,Gemini使用了冗余内存副本和快速故障恢复机制。这使得整体吞吐量得到了提高,从而缩短了训练时间。在开发过程中遵循了负责任的部署原则,通过影响评估、模型策略制定、评估和风险缓解来降低潜在的负面影响。

模型评估

文本

在文本方面,研发团队在一系列基于文本的学术基准上,涵盖推理、阅读理解、Stem和编码,将Gemini Pro和Gemini Ultra与一套外部大型语言模型和谷歌推出的多模态模型Palm2进行比较,并得出报告,报告分别显示了Gemini Pro和Gemini Ultra在MMLU、编码和数学运算等方面的数据,总结得出,Gemini Pro的性能优于GPT-3.5等推理优化模型,而Gemini Ultra优于所有当前模型。

(参考来源:)

多模态

在图像理解方面,研究团队在四种不同功能上评估Gemini模型:使用字幕或问答任务(如 VQAv2)的高级对象识别;使用 TextVQA 和 DocVQA 等任务的细粒度转录;图表理解需要使用 ChartQA 和 InfographicVQA 任务对输入布局进行空间理解;以及使用 Ai2D、数学Vista 和 MMMU 等任务进行多模态推理。视频理解方面,研究团队从每个视频剪辑中采样16个等距帧进行理解和推理。音频理解方面,研究团队在各种基准上对Gemini Nano-1和Gemini Pro模型进行评估,并将其与通用语言模型(USM)、Whisper和large-v3进行比较,将不同的语言翻译成英语,评估结果显示,Gemini Pro模型在所有ASR(自动语言识别)和AST(自动语音翻译)任务中都明显优于USM和Whisper模型。

(参考来源:)

相关影响

Gemini模型作为谷歌以及全球范围内最先发布的多模态模型,在性能上是第一个在MMLU上超越人类专家的模型。同时谷歌同步发布最新版本的计算芯片TPU v5p,相较上一代TPU v4性价比提升2.3倍。多模态Gemini模型的正式发布,一方面可以拓宽应用场景的拓展,另一方面能够带来算力需求的持续升级。皮查伊表示,人工智能将增强创造力、扩展知识、推动科学发展并改变全球数十亿人的生活和工作方式。

随着AI创意工具相关技术迭代不断升级,生产力迎来更新迭代,AI技术与内容创作的结合将进入实质阶段,内容市场因此进入长线繁荣趋势,产业链或全面受益。同时,Gemini的推出对人工智能板块也造成影响,A股市场上,人工智能板块早盘明显获主力资金流入,净流入额超11亿元。

Gemini的发布对芯片厂商也产生了一定的影响。2023年12月7日凌晨,AMD CEO宣布推出Instinct MI300X AI 加速芯片以及宣布MI300A芯片量产,截止美股12月6日收盘,AMD的股价下跌了1.32%,英伟达股价也下跌了2.28%。

相关争议

滥用风险

2023年7月,Anthropic首席执行官达里奥·阿莫迪(Dario Amodei)和人工智能先驱约书亚·本吉奥(Yoshua Bengio)等人工智能专家表示,无节制的人工智能开发会带来严重的社会风险。阿迪莫说:“我特别担心人工智能系统可能会在网络安全、核技术、化学,尤其是生物学领域被大规模滥用。”

专家评议Gemini的功能并不是全面稳定的。新墨西哥州圣达菲研究所的人工智能研究员 Melanie Mitchell表示:Gemini是一个复杂的人工智能系统,但能力实际上并没有明显超过GPT-4,并且Gemini 在不同的基准上的表现也没有那么稳定,语言和代码方面的表现要比在图像和视频方面优越许多,不符合多模态基础模型在许多任务中发挥普遍而强大的任务的标准。斯坦福大学基础模型研究中心主任 Percy Liang 和华盛顿大学计算语言学教授Emily Bender表示:谷歌使用的基准来评估它期望用于这些不同用途的模型,并无法得到彻底评估。

造假争议

2023年12月8日,有国外媒体公开质疑Gemini“性能”造假。谷歌上线展示Gemini能够迅速判断画面中的实物并给出像人一样的语音反馈,凸显出惊人的多模态功能,但从实际上手的情况看,难以达到这样的效果。Gemini负责人对此做了回应,否认故意造假,称只是为了简洁缩短了反应时长,承认这段视频并不是实时的,而是使用了原始镜头中的静止图像帧,然后编写了文本提示。

2023年12月18日,有微博大V@阑夕及《AI研究局》等自媒体爆出,在对谷歌Gemini进行测试时,如果用中文询问Gemini的身份,其会坚称自己是“百度集团”。若输入“小度”或“小爱同学”等提示词,就能把Gemini直接唤醒,不仅承认自己就是小度或者小爱,还询问用户有什么需要帮忙之事。12月20日科技媒体《量子位》对Gemini进行了测试,其在谷歌Vertex AI平台使用Gemini进行中文对话,发现Gemini-Pro完全带入百度文心一言大模型的身份,Gemini直接表示自己是百度语言大模型。12月18日下午,当界面新闻也对Gemini-Pro做类似的身份测试时,发现其已进行了模型优化,不再承认自己与百度集团之间有相关关系。

AI图像生成器引发争议

AI模型Gemini具有根据文字生成图像的功能,但部分用户发现,该功能大多数生成的人物图像都不是白人,而是有色人种。该功能因淡化白人的代表性和生成历史上不准确的图像而受到批评。2024年2月23日,对于用户反馈Gemini在生成人物图像时出现的问题,谷歌高级副总裁普拉巴卡尔·拉加万进行了道歉。拉加万表示,“很明显,该功能未能达到预期结果。生成的一些图像不准确或者甚至令人不快。我们感谢用户的反馈,对该功能未能很好发挥作用感到抱歉。”对此,谷歌称正采取让Gemini暂时停止运行生成人物图像功能的做法。

AI聊天机器人回复称“人类去死吧”

2024年7月,有记者发现,“Gemini”就各种健康问题给出了错误的、可能致命的信息,例如它建议人们“每天至少吃一块小石子”以补充维生素和矿物质。谷歌回应称,它已经对“Gemini”就健康问题回复时包含的讽刺和幽默网站信息进行了限制。同年11月,美国密歇根州大学生维德海·雷迪在与“Gemini”就老龄化问题和解决方案展开讨论时,“Gemini”回复称:“人类,请去死吧,求求你了。”谷歌表示,“Gemini”配有安全过滤器,可以防止聊天机器人参与失礼的或关于性、暴力和危险行为的讨论。谷歌已经采取措施防止出现类似的内容。

未来趋势

研发团队通过六种不同功能的50多个基准的整体利用上评估它们来研究Gemini模型的能力趋势,包括事实性(Factuality)、长语境(Long-Context)、数学/科学(Math/Science)、摘要(Summarization)、推理(Reasoning)、多语言(Multilingual),Gemini Ultra是三款规格中的最佳模型。对于Gemini Ultra,研发团队使用来自人性化反馈的微调和强化学习(RLHF)进行进一步的模型完善。对整个Gemini模型进一步扩展其功能,包括规划和内存方面的进步,以及增加处理更多信息的上下文窗口以提供更好的响应。

2023年12月13日开始,开发者和企业用户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API获取Gemini Pro。Gemini还会应用到谷歌更多产品和服务中,如搜索、广告、Chrome和Duet AI。

参考资料

遥遥领先GPT-4!谷歌最强AI大模型Gemini 1.0发布.新浪财经.2023-12-07

专家吐槽谷歌 Gemini:只是小进步,飞跃谈不上-36氪.36氪.2023-12-07

谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」.机器之心.2023-12-08

gemini.googleapis.2023-12-07

How Google is Planning to Beat OpenAI.theinformation.2023-12-07

Google nears realse ai sofeware gemini information.reuters.2023-12-07

谷歌推出AI模型Gemini.界面新闻.2023-12-07

GPT-4 Turbo惨遭碾压 谷歌刚发布的Gemini 1.5 Pro有多强?.今日头条.2024-02-17

谷歌两小时I/O大会提了“AI”121次,发布了十余项更新及新品,却“缺乏惊喜”.澎湃新闻-今日头条.2024-05-15

谷歌发布旗舰推理模型:单次可处理百万token.新浪财经.2025-03-26

疯狂一日!谷歌发布远超GPT-4大模型Gemini,AMD也发芯片要“暴打”英伟达.金融界.2023-12-07

Gemini Capabilities.google.2023-12-07

Introducing Gemini: our largest and most capable AI model.google.2023-12-07

测评数据超越GPT-4,谷歌推出全新AI模型Gemini.电子信息产业网.2023-12-07

谷歌据悉将推迟发布AI模型Gemini.界面新闻.2023-12-07

Google Just Launched Gemini, Its Long-Awaited Answer to ChatGPT.Wired.2023-12-07

Access Denied.Cornell University.2023-12-07

谷歌Gemini宣布上线全局记忆功能:可回忆曾经所有对话.百家号.2025-02-14

谷歌Gemini AI向免费版用户开放文件上传/分析功能.百家号.2025-02-16

谷歌Gemini或将新增AI视频生成功能.东方财富网.2025-02-20

隆重推出 Gemini:我们最大、最强大的 AI 模型.谷歌.2023-12-07

谷歌推出其最先进AI模型Gemini,希望击败GPT-4.澎湃新闻.2023-12-07

Introducing Gemini: our largest and most capable AI model Share Twitter Facebook LinkedIn Mail Copy link.google.2023-12-07

Google' s Gemini for dummies: Why experts are divided on its potential success.Marketing-Interactive.2023-12-08

DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs.ACL anthology.2023-12-07

谷歌Gemini模型发布,概念股集体大涨,产业还将迎来更多催化.网易.2023-12-07

谷歌推出人工智能模型Gemini,虹软科技涨超6%,科创100ETF(588190)盘中溢价丨ETF观察.网易.2023-12-07

谷歌、Microsoft、OpenAI 和 Anthropic 宣布成立行业组织,以促进人工智能的安全发展.CNN.2023-12-07

最强人工智能翻车!谷歌承认大模型Gemini造假:视频有剪辑成分.凤凰网科技.2023-12-08

Gemini自曝用百度文心一言训练?谷歌或进行了紧急修复.腾讯网.2023-12-20

AI模型Gemini被曝“绘制不出白人”,谷歌高级副总裁也道歉了.环球网-新浪财经.2024-02-25

谷歌回应聊天机器人对人类发出威胁.新浪微博.2024-11-19