当前位置：首页 > news >正文

[241108] AMD 开源首批 10 亿参数语言模型：AMD OLMo | Xfce 4.20 Pre1发布

news 2025/4/26 18:58:33

目录

- AMD 开源首批 10 亿参数语言模型：AMD OLMo
- Xfce 4.20 Pre1发布

AMD 开源首批 10 亿参数语言模型：AMD OLMo

AMD 近期开源了其首批 10 亿参数的大型语言模型系列——AMD OLMo，旨在推动 AI 研究的普及化。该模型利用 AMD Instinct™ MI250 GPU 集群，基于数万亿 token 训练而成，并开放了完整的训练细节和检查点，赋能开发者、研究人员探索和利用最先进的大型语言模型。

AMD OLMo 的优势：

定制化： 预训练和微调自有 LLM，可以更好地融入特定领域知识，满足特定需求，实现可扩展性和专业化的平衡。
高性能： 尽管预训练使用的 token 量少于 OLMo-1B（计算预算减少一半），但 AMD OLMo 在推理和指令遵循方面的性能与其他同等规模的开源模型相比更胜一筹。
开放性： AMD 开源了完整的训练细节、模型权重和代码，方便开发者复现和创新。
边缘部署： AMD OLMo 可以在配备神经处理单元 (NPU) 的 AMD Ryzen™ AI PC 上运行推理，利用 AMD Ryzen™ AI 软件实现本地部署，兼顾效率、隐私和低功耗。

AMD OLMo 的训练流程：

AMD OLMo 的训练分为三个阶段：

预训练： 使用 Dolma v1.7 数据集的 1.3 万亿 token 子集进行预训练，学习语言结构和通用知识。
监督微调 (SFT)： 分为两个阶段，首先使用 Tulu V2 数据集微调，然后使用 OpenHermes-2.5、WebInstructSub 和 Code-Feedback 数据集进一步微调，提升指令遵循能力，特别是编码、科学和数学问题解决能力。
对齐： 使用 UltraFeedback 数据集进行直接偏好优化 (DPO)，使模型输出与人类价值观和偏好更一致。

AMD OLMo 的性能表现：

在通用推理任务上的平均准确率与最新的 OLMo-0724-hf 模型相当，但计算预算减少了一半，并且优于其他基线模型。
在 ARC-Easy、ARC-Challenge 和 SciQ 等基准测试中，准确率均有提升。
在指令微调后，AMD OLMo 1B SFT 在 GSM8k 上的性能显著优于其他基线模型。
在聊天基准测试 AlpacaEval 2 和 MT-Bench 上，AMD OLMo 也表现出色。
在负责任的 AI 评估基准测试中，AMD OLMo 1B SFT DPO 与其他聊天基线模型表现相当。

AMD OLMo 的发布是 AMD 在 AI 领域的重要一步，其开源策略和优异性能将有助于推动 AI 技术的普及和发展，并为开发者提供更多选择和可能性。

来源：

https://www.amd.com/en/developer/resources/technical-articles/introducing-the-first-amd-1b-language-model.html

Xfce 4.20 Pre1发布

Xfce 社区近日发布了 Xfce 4.20 的首个预览版本 (Pre1)，供早期用户测试新版本并检查兼容性。
为了提高稳定性，在最终版本发布之前，Xfce 核心组件将不再添加新功能和字符串，以便翻译人员完成最终版本的翻译工作。
最终版本计划于12月15日发布。

来源：

https://alexxcons.github.io/blogpost_11.html

http://www.mrgr.cn/news/68210.html

相关文章：

【Linux系列】字符串操作的艺术：删除前缀的 Shell 脚本技巧

AI 浅探，揭秘【AI开发流程】的奥秘

Java | Leetcode Java题解之第546题移除盒子

高级java每日一道面试题-2024年10月30日-JVM篇-新生代垃圾回收器和老生代垃圾回收器有哪些?有什么区别?

如何实现低代码接口？低代码平台接口开发详解

解决警告：Boxed value is unboxed and then immediately reboxed

C++:模拟实现STL的list

鸿蒙NEXT开发笔记（十二）仿微信聊天App的图片转BASE64串

Nginx 配置文件详解

【最高分数与最低分数】

理解Web登录机制：会话管理与跟踪技术解析（三）-过滤器Filter

【系统设计】数据库压缩技术详解：从基础到实践（附Redis内存优化实战案例）

软件测试基础十四（python 类与对象）

问：SpringFramwork都有哪些模块？

论文1—《基于卷积神经网络的手术机器人控制系统设计》文献阅读分析报告

C++学习笔记----11、模块、头文件及各种主题（一）---- 模板概览与类模板（1）

网络编程（一）：UDP socket api =＞ DatagramSocket DatagramPacket

对话框（Dialog）

W3C HTML 活动

[数组排序] 1122. 数组的相对排序