当前位置：首页 > news >正文

突破语言壁垒：Cohere 发布多语言大模型 Aya Expanse

news 2025/4/4 11:09:59

前沿科技速递🚀

在多语言大模型领域，Cohere 再次迎来了突破！10月24日，Cohere的研究实验室 Cohere For AI 正式发布了最新的多语言AI模型家族 —— Aya Expanse。该系列模型开放了8B和32B参数两个版本,为全球AI爱好者带来了崭新的多语言处理能力。

来源：传神社区

01 模型简介

Aya Expanse 作为一款专注于缩小语言差距的多语言模型家族，支持包括中文、英语、阿拉伯语等在内的23种语言，显著提升了各类主流模型的性能。无论是8B还是32B版本，都通过了严格的多语言基准测试，在各类多语言任务中表现优异，胜过 Gemma 2、Llama 3.1 及 Ministral 等领先的开源模型。

Cohere 一直致力于提升多语言研究的质量和普及性。在过去两年内，Aya 项目已经与来自 119 个国家的超过3000位研究者共同协作，建立了包含 5.13 亿个多语言样本的全球最大多语言数据集 Aya Collection，全面覆盖多语言模型的安全性和性能测试。

02 核心创新

Aya Expanse 的成功离不开几项核心技术创新，Cohere 的研究团队在数据生成、人类反馈和模型合并方面做出了重要改进。以下是 Aya Expanse 核心技术亮点：

数据套利（Data Arbitrage）
针对资源稀缺的语言，Aya Expanse 采用了一种独特的数据采样策略“数据套利”，通过教师模型生成高质量的合成数据来弥补低资源语言的不足。该方法受到人类学习方式的启发，根据数据分布，采用不同的“教师”模型生成适合的多语言数据。这有效避免了模型因合成数据生成而产生“乱码”的现象，使多语言数据的质量得到了有效保障。
多语言偏好训练（Multilingual Preference Training）
偏好训练是指导模型输出高质量结果的“最后一闪”。Aya Expanse 不仅结合了广泛的多语言人类反馈，还融入了多元文化视角，使其在多语言环境下输出更加精准、安全。通过多轮次的偏好优化，Aya Expanse 的性能和安全性在不同文化和语言背景下均有显著提升，为多语言模型的安全性设立了新的标准。
模型合并（Model Merging）Aya Expanse 采用了模型合并技术，将多种微调模型的权重进行合并，显著提高了模型的多任务处理能力和语言多样性。这种方法不仅保留了每个模型的高性能，还通过权重加权平均法最大化模型的多样性，确保模型在不同语言家族的表现达到最佳。

03 卓越性能

通过图中可以看出，Aya Expanse 8B 在多个对比模型中表现突出。在 m-ArenaHard 基准测试中，Aya Expanse 8B 对比 Gemma-2 9B、Llama-3.1 8B 和 Ministral 8B 均取得了较高的得分。

在具体语言对比上，Aya Expanse 8B 在英语、阿拉伯语、中文等多种语言中的表现均超过对比模型 Gemma-2 9B，特别是阿拉伯语和法语的胜率分别高达 69.0% 和 58.0%。这一结果展示了 Aya Expanse 在多语言理解和生成方面的强大适应能力。

在规模较大的测试中，Aya Expanse 32B 表现出色，超越了包括 Gemma 2 27B、Mistral 8x22B 以及 Llama 3.1 70B 等多款主流大模型，为多语言性能树立了新的标杆。而更小的 Aya Expanse 8B 模型在 60.4% 至 70.6% 的胜率范围内超越了 Gemma 2 9B、Llama 3.1 8B 和 Ministral 8B，在同类参数模型中性能领先。