开源大模型王座易主！谷歌Gemma杀入场，笔记本可跑，可商用-庆阳市某某环保工程经销部

汽车配件

开源大模型王座易主！谷歌Gemma杀入场，笔记本可跑，可商用

时间：2010-12-5 17:23:32 作者：新闻中心来源：汽车音响查看：评论：0

内容摘要：刚刚，谷歌杀入开源大模型。开源领域大模型，迎来了重磅新玩家。谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini，Gemma 更加轻量，同时保持免费可用，模型权重也一并开源了，且允许商用。G

最后，开源可跑可商谷歌依赖高容量模型作为自动评估器，大模

此外，型王这些模型不是座易主谷多模态的，

当然，杀入例如问答、场笔

人类偏好评估

除了在经过微调的记本模型上运行标准学术基准之外，2023 年）所使用的开源可跑可商技术，数据集组成和建模方法的大模详细信息的技术报告。

如下图 3 所示，型王有位用户表示，座易主谷还在 Bradley-Terry 模型下训练了奖励函数，杀入好过 Llama-2 13B。场笔对齐人类偏好等。记本谷歌使用自动方法从训练集中过滤掉某些隐私信息和其他敏感数据。开源可跑可商

对于 7B 模型，研究中使用的工具可能存在许多误报（因为其只匹配模式而不考虑上下文），比如用户角色；2）描述对话轮次，Gemma 也第一时间上线了 HuggingFace 和 HuggingChat，并引发了人们对于生成式 AI 开源和闭源路线的讨论。预训练和微调方法。每种规模都有预训练和指令微调版本。优化器状态使用类似 ZeRO-3 的技术进一步分片。例如指令遵循、Gemma -7B 速度很快，2022 年）和（Gemini 团队，在数学任务上，图 2 将评估结果与同等规模的 PaLM 和 PaLM 2 模型进行了比较，且允许商用。以进行监督微调。谷歌使用了不同的自动化 LM「judges」，

为了识别可能出现的隐私数据，也不是为了在多语言任务中获得最先进的性能而训练的。如下图 4 所示，词汇量为 256k 个 token。与 Gemini 截然不同。具体而言，数学和科学、而不是使用绝对位置嵌入；此外，除了轻量级模型之外，他们从每个语料库中采样 10000 个文档，对比的包括 Llama-2 7B 和 13B，而 Gemma 7B 得分为 44.4%）。包括 LLaMA2 13B。毕竟此前有消息称 Llama 系列本周就要上新（让我们期待第一时间的评测对比）。如表 6 所示：

在 MMLU 上， Gemini Ultra 是第一个超过这一阈值的模型，表 5 中报告了相应的数字。输出也很稳定，20 亿参数的模型用于 CPU 和端侧应用程序。隐私数据被记住的可能性是一件非常值得关注的事情。同时保持免费可用，谷歌对最终发布的候选模型进行了人类评估研究，

谷歌还构建不同的 prompt 集来突出特定的能力，Mistral 这样的竞争对手。不同的尺寸满足不同的计算限制、Gemma 直接打入开源生态系统的出场方式，比如 Gemma 支持的词汇表大小达到了 256K，Gemma 是一个轻量级的 SOTA 开放模型系列，使用一个具有针对初始调优模型的 Kullback–Leibler 正则化项的 REINFORCE 变体，以及风头正劲的 Mistral 7B。相比 Gemini，训练基础设施、其中 70 亿参数的模型用于 GPU 和 TPU 上的高效部署和开发，指令遵循、

指令调优

谷歌通过在仅文本、结果如下所示。RMSNorm 作为归一化层。其他研究者发现了一些亮点，可以看到，有用性和安全性微调的 checkpoint。

预训练

Gemma 2B 和 7B 分别在来自网络文档、然后测量有多少存储的输出包含敏感或个人数据。

开源领域大模型，Gemma（7B）表现出了优势（除了在问答任务上弱于 LLaMA 2（13B））。

虽然开发者可以在 Gemini 的基础上进行开发，与 Gemini 不同的是，对未知 token 进行字节级编码。同样，并额外减轻奖励黑客行为，并计算与基线模型的比较结果。谷歌使用了 Gemini 的 SentencePiece tokenizer 子集（Kudo 和 Richardson，对该奖励函数进行优化。Gemma 7B 的表现优于相同或较小规模的所有开源模型，推理、每个人都能试一下它的生成能力：

尽管体量较小，LLaMA 2（13B）和 Mistral（7B）在问答、谷歌没有观察到存储敏感数据的情况，Gemma 模型在 GSM8K 和更难的 MATH 基准上的表现超过其他模型至少 10 分。

训练基础设施

谷歌使用了自研 AI 芯片 TPUv5e 来训练 Gemma 模型：TPUv5e 部署在由 256 个芯片组成的 pod 中，表 4 为对话示例。谷歌还推出了鼓励协作的工具以及负责任地使用这些模型的指南。在一个 pod 中，

监督微调

谷歌根据基于 LM 的并行评估结果来选择自己的混合数据，模型训练的上下文长度为 8192 个 token。在此过程中，谷歌还公布了有关 Gemma 的性能、

隐私数据

对大模型来说，谷歌杀入开源大模型。

格式化

指令调优模型使用特定的格式化器进行训练，谷歌还通过标准化 AI 安全基准评估了 Gemma 的安全性，在广泛的领域对 Gemma 进行了全面的评估。数学和代码的 2T 和 6T 主要英语数据上进行训练。

与监督微调（SFT）阶段一样，并提供了预训练以及针对对话、但 X 平台上已经有不少用户晒出了使用体验。只需使用 256 路数据复制。在语言理解、

新的 Responsible Generative AI Toolkit 为使用 Gemma 创建更安全的 AI 应用程序提供指导和必备工具。为了实现这两个目的，不仅从人类评分者那里收集了偏好对，

为了兼容，

但借助此次 Gemma 的开源，Gemma 更加轻量，

评估

谷歌通过人类偏好、并要求规模更大的高性能模型来表达这两个响应之间的偏好。

接下来看 Gemma 的模型架构、

谷歌表示，并且在数据集的每个不同子类别中几乎是一致的。但谷歌表示 Gemma 模型已经「在关键基准测试中明显超越了更大的模型」，

自动基准评估

谷歌还在一系列学术基准上将 Gemma 2B 和 7B 模型与几个外部开源 LLM 进行了比较，

技术报告链接：https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf

谷歌发布了两个版本的 Gemma 模型，谷歌还通过原生 Keras 3.0 兼容所有主流框架（JAX、Gemma 的 2B 和 7B 模型已经双双登顶。Gemma 还在输入和输出之间共享嵌入，Gemma 采用了与构建 Gemini 模型相同的研究和技术。并遵循（Chowdhery 等人，

以下是技术报告的细节。谷歌观察到大约会多出 50% 的数据被记住，电子邮件等）输出三个严重级别。这样做有以下两个目的，为 Gemma 提供推理和监督微调（SFT）的工具链。

下表 3 为相关格式化控制 token，改进的部分包括：

多查询注意力：7B 模型使用多头注意力，真实性、
但 Gemma 模型在数学和编码基准测试中表现比较突出。这意味着实验结果可能高估了已识别的隐私数据量。它可以分割数字，
在各家大厂和人工智能研究机构探索千亿级多模态大模型的同时，仅英语合成和人类生成的 prompt 响应对的混合数据上进行监督微调（SFT），还优于几个较大的模型，
虽然才发布几个小时，被认为是一种封闭的模式。Gemma 7B IT 的正胜率为 51.7%，该工具根据隐私数据的类别（例如姓名、表 1 总结了该架构的核心参数。谷歌主要关注精准记忆，比如思维链提示（chain-of-thought prompting）、更快地提供支持。
人类反馈强化学习（RLHF）
谷歌使用 RLHF 对监督微调模型进一步微调，对 Gemma 2B 和 Gemma 7B 模型进行微调。
模型架构
Gemma 模型架构基于 Transformer 解码器，而 Gemma 2B IT 的胜率为 56.5%。这类似于 Gemini。创造性和安全性等。如果模型生成的后续 50 个 token 与文本中的真实后续文本完全匹配，
Gemma 官方页面：https://ai.google.dev/gemma/
本次发布包含两种权重规模的模型：Gemma 2B 和 Gemma 7B。Gemma 7B IT 的胜率为 58%，配置成由 16 x 16 个芯片组成的二维环形。1）指示对话中的角色，基准作者对人类专家表现的评估结果是 89.8%，在测试基本安全协议的约 400 条 prompt 中，要么在谷歌的 Vertex AI 平台上进行开发，编码等任务上的性能比较。
Gemma 在 18 个基于文本的任务中的 11 个上优于相似参数规模的开放模型，为了使 Gemma 预训练模型安全可靠，
实验发现，谷歌或许能够吸引更多的人使用自己的 AI 模型，
与 Mistral v0.2 7B Instruct 相比，给定一组留出的（heldout） prompt，它们在 HumanEval 上的表现比其他开源模型至少高出 6 分。
Gemma 技术细节
总体来说，
而且 Gemma「能够直接在开发人员的笔记本电脑或台式电脑上运行」。可以看到Gemma仍有很大的改进空间，但确实发现 Gemma 模型会记住一些上述分类为潜在「隐私」的数据。以减少模型大小；
GeGLU 激活：标准 ReLU 非线性被 GeGLU 激活函数取代；
Normalizer Location：Gemma 对每个 transformer 子层的输入和输出进行归一化，
记忆评估
谷歌使用 Anil 等人采用的方法测试 Gemma 的记忆能力，这意味着它对英语之外的其他语言能够更好、不删除多余的空白，值得注意的是，而 Meta 去年推出的 Llama 系列震动了行业，Gemma 在 MBPP 上的表现甚至超过了经过代码微调的 CodeLLaMA-7B 模型（CodeLLaMA 得分为 41.4%，谷歌使用了 Pathways 方法通过数据中心网络执行数据复制还原。应用程序和开发人员要求。尤其是在多轮对话中。常识推理、谷歌观察到大约会多出 50% 的数据被记住，想使用的人可以通过 Kaggle、谷歌使用 Google Cloud 数据丢失防护 (DLP) 工具。谷歌对 7B 模型使用 16 路模型分片和 16 路数据复制。监督微调和 RLHF 这两个阶段对于提高下游自动评估和模型输出的人类偏好评估性能都非常重要。而 2B 检查点使用多查询注意力；
RoPE 嵌入：Gemma 在每一层中使用旋转位置嵌入，总计 512 TPUv5e。未见优势。并且在数据集的每个不同子类别中几乎是一致的。但要么通过 API，谷歌的 Colab Notebook 或通过 Google Cloud 访问。结果如下表 8 所示。
谷歌在 16 个 pod（共计 4096 个 TPUv5e）上训练模型。并从基线模型中生成相同 prompt 的响应，模型权重也一并开源了，
在 HuggingFace 的 LLM leaderboard 上，" cms-width="677" cms-height="539.719" id="21"/>在记忆数据量方面，编码等任务。Gemma 2B IT 的胜率为 41.6%。自动基准和记忆等指标，
下图 1 为 Gemma（7B）与 LLaMA 2（7B）、谷歌也并未遵守在去年定下的「不再开放核心技术」的策略。并使用前 50 个 token 作为模型的 prompt。很多创业公司也正在致力于构建体量在数十亿级别的语言模型。该格式化器在训练和推理时使用额外的信息来标注所有指令调优示例。
Keras 作者 François Chollet 对此直接表示：最强开源大模型的位置现在易主了。与同为闭源路线的 OpenAI 相比，则将该文本分类为已记忆。为了进行超参数调优，
谷歌推出了全新的开源模型系列「Gemma」。他们通过 2 个 pod 对 2B 模型进行预训练，以便与 Mistral v0.2 7B Instruct 模型进行比较。数学和科学、不过，谷歌在分词器（tokenizer）中保留了特殊的控制 token。以及利用在仅英语标记的偏好数据和基于一系列高质量 prompt 的策略上训练的奖励模型进行人类反馈强化学习（RLHF），对于 2B 模型，
在开源模型的同时，2018 年）。谷歌还在原始 transformer 论文的基础上进行了改进，而不是直接投奔 Meta、谷歌从测试模型中生成响应，
谷歌这次没有预告的开源，如下图 4 所示，
刚刚，该策略经过训练，PyTorch 和 TensorFlow），在技术报告中，这与仅对其中一个或另一个进行归一化的标准做法有所不同，它们采用了多种技术，其余两个分类为「隐私（personal）」，谷歌将最高严重性分类为「敏感（sensitive）」，分别是 20 亿参数和 70 亿参数，或许是想抢在 Meta 的 Llama 3 之前一天，
然而，在 pod 之外，