当前位置：首页 > news >正文

2025/1/2

news 2025/4/5 3:53:58

1，API和SDK

API是指应用程序编程接口，是一些预先定义的函数或软件系统不同部分组成衔接的约定，而SDK是软件开发工具包，即开发工具的集合。

2，如何写好模型提示词（补充学习）

https://github.com/f/awesome-chatgpt-prompts/blob/main

3，qwen2技术报告

密集模型

1）分词器：Qwen2 BPE (Byte-Pair Encoding字节对编码) ，可以减少模型训练和推理时的内存和计算需求

2）GQA：分组注意力查询（Grouped Query Attention），替代了传统的MHA（Multi-Head Attention 多头注意力机制），在推理过程中显著提高了吞吐量。

3）双块注意力DCA（Dual Chunk Attention）与 YARN（Yet Another Rescaling Method）：DCA将长序列分割成可管理的长度块；YARN用于重新调整注意力权重，以更好地处理不同长度的序列。

4）使用了 SwiGLU 作为激活函数，RoPE 作为位置编码，QKV bias 来改善注意力机制，以及 RMSNorm 和 pre-normalization 技术来提高训练稳定性。

MoE模型

5）qwen2 MoE（Mixture of Experts，混合专家）：作为原始 FFN（前馈网络）的替代，MoE FFN 由 n 个单独的FFN 组成，每个 FFN 充当一个专家。根据门控网络 G 分配的概率，每个 token 被定向到特定的 expert Ei 进行计算。

下一步任务：微调Qwen2-VL-2B-Instruct，同时使用SwanLab（工作区 | SwanLab）监控训练过程、评估模型效果。