当前位置: 首页 > news >正文

2025/1/2

1,API和SDK

API是指应用程序编程接口,是一些预先定义的函数或软件系统不同部分组成衔接的约定,而SDK是软件开发工具包,即开发工具的集合。

2,如何写好模型提示词(补充学习)

https://github.com/f/awesome-chatgpt-prompts/blob/main

3,qwen2技术报告

密集模型

1)分词器:Qwen2 BPE (Byte-Pair Encoding字节对编码) ,可以减少模型训练和推理时的内存和计算需求

2)GQA:分组注意力查询(Grouped Query Attention),替代了传统的MHA(Multi-Head Attention 多头注意力机制),在推理过程中显著提高了吞吐量。

3)双块注意力DCA(Dual Chunk Attention)与 YARN(Yet Another Rescaling Method):DCA将长序列分割成可管理的长度块;YARN用于重新调整注意力权重,以更好地处理不同长度的序列。

4)使用了 SwiGLU 作为激活函数,RoPE 作为位置编码,QKV bias 来改善注意力机制,以及 RMSNorm 和 pre-normalization 技术来提高训练稳定性。

MoE模型

5)qwen2 MoE(Mixture of Experts,混合专家):作为原始 FFN(前馈网络) 的替代,MoE FFN 由 n 个单独的FFN 组成,每个 FFN 充当一个专家。根据门控网络 G 分配的概率,每个 token 被定向到特定的 expert Ei 进行计算。

下一步任务:微调Qwen2-VL-2B-Instruct,同时使用SwanLab(工作区 | SwanLab)监控训练过程、评估模型效果。


http://www.mrgr.cn/news/82333.html

相关文章:

  • Fast R-CNN模型详解及分析
  • SpringCloud系列教程:微服务的未来(六)docker教程快速入门、常用命令
  • 【蓝桥杯研究生组】第14届Java试题答案整理
  • UniApp 状态管理:Vuex 在 UniApp 中的实践
  • Navicat 17 for Mac 数据库管理软件
  • 前 5 名 IPhone 解锁工具/软件
  • MQ-导读
  • 设计模式 结构型 适配器模式(Adapter Pattern)与 常见技术框架应用 解析
  • Windows下使用bat实现端口映射进程守护
  • 【技术新浪潮】DeepSeek-V3:中国AI的开源巨浪,全球AI格局的破局者
  • 使用Python,networkx构造有向图及无向图以及图合并等api
  • vue设计与实现-框架设计
  • FPGA随记——过约束
  • WPF的一些控件的触发事件记录
  • 我在广州学 Mysql 系列——有关数据表的插入、更新与删除相关练习
  • 在DJI无人机上运行VINS-FUISON(PSDK 转 ROS)
  • 人脑处理信息的速度与效率:超越计算机的直观判断能力
  • win32汇编环境,窗口程序显示bmp图像文件
  • Structured-Streaming集成Kafka
  • LinuxC高级day5
  • CTFshow—远程命令执行
  • Kettle迁移至Oracle的空字符串和NULL的问题处理,大坑!
  • 国产编辑器EverEdit - 常用资源汇总
  • ubuntu开启root用户
  • ruoyi开发学习
  • 【计组不挂科】计算机组成综合习题库(选择题207道&判断题93道&填空题143道)(含答案与解析)