Gemini(谷歌于2023年12月发布的人工智能模型)

Gemini是谷歌开发的一款人工智能AI模型，该模型于2023年12月6日推出Gemini1.0版本，包括Gemini Ultra、Gemini Pro和Gemini Nano三个不同规格。

谷歌于2023年4月就开启了OpenAI的研究计划，合并了两个大型人工智能团队。2023年8月，谷歌在其面向印度和日本用户的搜索工具中引入了生成式人工智能，并于9月，向少数公司开放了其对话式人工智能软件Gemini的早期版本。12月6日，谷歌正式推出Gemini 1.0版本，包括Gemini Ultar、Gemini Pro、Gemini Nano三种不同的规格。2024年2月15日，谷歌发布Gemini 1.5。5月15日，谷歌更新升级Gemini1.5Pro版本，同时推出Gemini1.5Flash轻量化小模型。2025年3月26日，谷歌发布Gemini 2.5系列人工智能推理模型。

Gemini内置了谷歌自研AI超算芯片Cloud TPU V5P，它是第一个在MMLU基准上优于人类专家的模型。基于从头开始构建的多模型，使得它能够同时识别文本、图像、音频、视频和代码五种类型信息，还可以理解并生成流行的编程语言（如Python、Java、C++）的高质量代码，并拥有全面的安全性评估。

发展历程

2023年4月，字母控股（谷歌母公司）首席执行官桑达尔·皮查伊（Sundar Pichat）合并了两个大型人工智能团队，开启OpenAI计划。2023年5月，谷歌在开发者大会上透露正在开发AI大模型Gemini。2023年8月，谷歌在其面向印度和日本用户的搜索工具中引入了生成式人工智能，该工具将向提示性语言和摘要中显示文本或可视化结果，同时，它还以每位用户每月30美元的价格向企业客户提供其人工智能工具。2023年9月15日，The Information报道称，谷歌已经向少数公司开放了其对话式人工智能软件Gemini的早期版本。2023年11月16日，谷歌表示推迟发布AI模型Gemini。

2023年12月6日，Gemini初始版本在谷歌的聊天机器人Bard中推出，同时优化推出Gemini 1.0版本，包括三个不同体量的模型：用于处理“高度复杂任务”的Gemini Ultra、用于处理多个任务的Gemini Pro和用于处理“终端上设备的特定任务”的Gemini Nano。Gemini是一种可以处理文本、图像和视频的新型 AI 模型，内置谷歌自研AI超算芯片Cloud TPU V5P。戴密斯·哈萨比斯（Demis Hassabls）对此表示：“Gemini是谷歌各团队大规模协作的结果，它是从头开始构建的多模式，这意味着它可以概括和无缝理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。”此外，Pixel引入了Gemini，搭载了Gemini Nano的Pixel 8 Pro，支持“录音机”应用中的“总结”等新功能，并在Gboard中推出“智能回复”功能。Gemini是第一个在MMLU（大规模多任务语言理解）方面优于人类专家的模型。

2024年2月15日，谷歌发布Gemini 1.5。Gemini 1.5版本中首个登场的多模态通用模型Gemini 1.5 Pro，可以把稳定处理上下文的上限扩大至100万tokens，并且是在Kalamang语翻译至英语的测试中表现最好的模型。5月15日，谷歌更新升级Gemini1.5Pro版本，同时推出Gemini1.5Flash轻量化小模型。Gemini 1.5 Pro升级到200万tokens，并全面支持Workspace，Gemini 1.5 Pro会面向全球开发者开放。同时，谷歌还宣布推出基于Gemini 1.5 Pro的Gemini Advanced，升级后的Gemini Advanced可以处理“多个大型文档，总计最多1500页，或汇总100封电子邮件，同时支持35多种语言和150多个国家及地区。

2025年2月14日，Gemini AI上线了一项“全局记忆”功能。 2月15日，谷歌Gemini AI已开始向免费版用户开放文件上传和分析功能，此前该功能仅向Gemini Advanced付费用户提供。截至该日，该功能已在Gemini安卓应用和网页版中上线，海外没有订阅Gemini的用户现在也可以直接从设备本地或Google Drive谷歌云盘中应用程序上传文件。2月，代码显示，谷歌正在开发一项视频生成功能，预计会在以后的更新中添加到Gemini中。谷歌应用v16.6.23包含的代码暗示谷歌将为Gemini添加视频生成功能。3月26日，谷歌发布Gemini 2.5系列人工智能推理模型。该系列模型在回答问题前会“思考”片刻；该模型登陆谷歌开发者平台Google AI Studio，同时向每月支付20美元订阅“Gemini Advanced”的用户开放。Gemini 2.5 Pro支持高达100万token的超大上下文窗口，单次可以处理约75万英文单词。同年5月，谷歌计划推出Gemini的“儿童版”，面向13岁以下、由家长管理的未成年人账户开放。该服务适用于使用谷歌Family Link的用户，家长可通过该平台为孩子创建gmail账户，并自主决定是否启用包括YouTube在内的相关功能。注册儿童账户时，家长需提供包括孩子姓名、出生日期等在内的基本个人信息。此次Gemini推出初期，使用家庭管理账户的儿童用户可直接访问该服务，谷歌表示未来将为家长开放相关控制权限，包括完全关闭孩子对Gemini的使用。为保障低龄用户的使用安全，Gemini设置了内容过滤机制，防止生成不当信息。同时，谷歌承诺，儿童用户通过Family Link使用Gemini所产生的数据，不会被用于AI模型训练。

Gemini 1.0分类

Gemini 能够在从数据中心到移动设备的所有设备上运行。其功能将增强开发人员和企业客户使用 AI 构建和扩展的方式。谷歌针对三种不同的尺寸优化了第一个版本 Gemini 1.0，来支持广泛的应用程序。

（参考来源：）

功能和服务

复杂推理能力

Gemini 1.0具有复杂多模态推理能力，可以帮助理解复杂的书面和视觉信息，它能够发现海量数据中难以辨别的知识。在学习方面，它可以更好地理解细微的信息，并回答与复杂主题相关的内容，从而能够对数学和物理等复杂学科的问题进行推理。Gemini 1.0通过阅读、过滤和理解信息具有了从数十万份文件中提取知识的能力，有助于科学、金融等诸多领域取得新突破。

识别与理解力

Gemini 1.0采用变压器架构和高效的Attention机制，可以同时识别和理解文本、图像、音频等，它能够更全面地理解输入中信息的细节并生成任务。在图像基准方面，Gemini Ultra无需对象字符识别（OCR）系统的帮助即可从图像中提取文本。视频理解方面，Gemini模型通过将视频编码为大语境窗口中的一系列帧完成的，视频帧或图形可以自然地与文本或音频交织在一起，可以处理可变输入分辨率。

Gemini Ultra作为Gemini中最强大的一款规格，在MMLU（大规模多任务语言理解数据集）中的得分率高达90.0%，首次超越了人类专家。MMLU数据集包含数学、物理、历史、法律、医学和伦理等57个科目，Gemini Ultra结合考虑模型不确定性的思维链提示方法，产生包含k个样本的思维链，如果在预设阈值之上存在共识，则选择此答案，否则它将返回到基于最大似然选择的样本，而不需要思考链。

高级编码能力

Gemini可以理解、解释和生成流行的编程语言（如Python、Java、C++和Go）的高质量代码，能够跨语言工作并推理复杂信息，还可以用作高级编码系统的引擎。例如，AlphaCode团队构建的AlphaCode2，将Gemini的推理能力与搜索和工具使用相结合，解决竞争性编程问题。在Codeforces竞争性编程平台上，AlphaCode 2在进入者中排名前15%。

安全功能方面

Gemini拥有全面的安全性评估，包括偏差和病毒等。谷歌应用了Google Research的对抗性测试技术，依据 Google AI 原则和严格的产品安全政策，增加了新的保护措施，全面考虑潜在风险，并在开发的每个阶段进行测试和风险降低。此外，谷歌与外部专家合作进行压力测试来确保内容安全，且建立了专门的安全分类器来识别和过滤有害内容，确保Gemini更加安全和包容。此外，Gemini Nano可以在使用特殊芯片的终端设备上运行，没有网络连接的情况下也可以使用此模型，不会造成个人数据的丢失。比如：Pixel 8 Pro 在录音机应用中使用 Gemini Nano 来总结会议音频，即使没有网络连接也可以实现。

全局记忆功能

“全局记忆”功能赋予Gemini AI前所未有的能力，能够全面记录并存储用户与其之间的所有过往对话。借助全局记忆，用户在与AI互动时，彻底告别频繁翻阅对话历史的繁琐，轻松接续未竟话题。Gemini AI凭借对先前对话内容的深刻记忆，自动衔接上下文，显著简化了人机交互流程，提升了效率与便捷性。全局记忆功能作为Gemini Advanced服务的专属特权，率先面向英语用户开放，并计划在数周内逐步扩展至其他语言。

关键技术

Gemini最大亮点之一就是原生多模态大模型，一开始就在不同模态上进行预训练，利用额外的多模态数据进行微调以提升有效性。Gemini 1.0系列内置自研 AI 超算芯片Cloud TPU v5p，TPU是谷歌为神经网络设计的专用芯片，经过优化可加快机器学习模型的训练和推断速度。与TPU v4相比，TPU v5p的浮点运算性能提升了两倍，在高带宽内存方面提高了3倍。TPU v5p能够提供459 teraFLOPS（每秒可执行459万亿次浮点运算）的bfloat16（16位浮点数格式）性能或918 teraOPS（每秒可执行918万亿次整数运算）的Int8（执行8位整数）性能，支持95GB的高带宽内存，能够以2.76 TB/s的速度传输数据。

模型训练

Gemini模型建立在Transfomer解码器上，这些解码器通过架构和模型优化的改进来增强，从而能够实现大规模的稳定训练并在谷歌的张量处理单元上优化推理。它们被训练成支持32k上下文长度，并采用有效的注意力机制。

研发团队使用TPUv5e和TPUv4对Gemini模型进行训练，TPU是谷歌为神经网络设计的专用芯片，经过优化可加快机器学习模型的训练和推断速度。TPUv4 加速器部署在 4096 个芯片的“SuperPods”中，每个芯片连接到专用的光学开关，可以在大约 10 秒的时间内动态重新配置 4x4x4 芯片立方体到任意 3D 环形拓扑。

Gemini在一个多模态和多语言的数据集上训练，预训练数据集使用来自Web文档、书籍和代码的数据，包括图像、音频和视频数据。使用SentencePiece标记器来提高推断词汇量。研发团队采用启发式规则和基于模型的分类器将所有数据集应用质量过滤器，执行安全过滤以消除有害内容。为了实现高效的模型训练，Gemini使用了冗余内存副本和快速故障恢复机制。这使得整体吞吐量得到了提高，从而缩短了训练时间。在开发过程中遵循了负责任的部署原则，通过影响评估、模型策略制定、评估和风险缓解来降低潜在的负面影响。

模型评估

文本

在文本方面，研发团队在一系列基于文本的学术基准上，涵盖推理、阅读理解、Stem和编码，将Gemini Pro和Gemini Ultra与一套外部大型语言模型和谷歌推出的多模态模型Palm2进行比较，并得出报告，报告分别显示了Gemini Pro和Gemini Ultra在MMLU、编码和数学运算等方面的数据，总结得出，Gemini Pro的性能优于GPT-3.5等推理优化模型，而Gemini Ultra优于所有当前模型。

（参考来源：）

多模态

在图像理解方面，研究团队在四种不同功能上评估Gemini模型：使用字幕或问答任务（如 VQAv2）的高级对象识别；使用 TextVQA 和 DocVQA 等任务的细粒度转录；图表理解需要使用 ChartQA 和 InfographicVQA 任务对输入布局进行空间理解；以及使用 Ai2D、数学Vista 和 MMMU 等任务进行多模态推理。视频理解方面，研究团队从每个视频剪辑中采样16个等距帧进行理解和推理。音频理解方面，研究团队在各种基准上对Gemini Nano-1和Gemini Pro模型进行评估，并将其与通用语言模型（USM）、Whisper和large-v3进行比较，将不同的语言翻译成英语，评估结果显示，Gemini Pro模型在所有ASR（自动语言识别）和AST（自动语音翻译）任务中都明显优于USM和Whisper模型。

（参考来源：）

未来趋势

研发团队通过六种不同功能的50多个基准的整体利用上评估它们来研究Gemini模型的能力趋势，包括事实性（Factuality）、长语境（Long-Context）、数学/科学（Math/Science）、摘要（Summarization）、推理（Reasoning）、多语言（Multilingual），Gemini Ultra是三款规格中的最佳模型。对于Gemini Ultra，研发团队使用来自人性化反馈的微调和强化学习（RLHF）进行进一步的模型完善。对整个Gemini模型进一步扩展其功能，包括规划和内存方面的进步，以及增加处理更多信息的上下文窗口以提供更好的响应。

2023年12月13日开始，开发者和企业用户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API获取Gemini Pro。Gemini还会应用到谷歌更多产品和服务中，如搜索、广告、Chrome和Duet AI。