2025/1/2
1,API和SDK
API是指应用程序编程接口,是一些预先定义的函数或软件系统不同部分组成衔接的约定,而SDK是软件开发工具包,即开发工具的集合。
2,如何写好模型提示词(补充学习)
https://github.com/f/awesome-chatgpt-prompts/blob/main
3,qwen2技术报告
密集模型
1)分词器:Qwen2 BPE (Byte-Pair Encoding字节对编码) ,可以减少模型训练和推理时的内存和计算需求
2)GQA:分组注意力查询(Grouped Query Attention),替代了传统的MHA(Multi-Head Attention 多头注意力机制),在推理过程中显著提高了吞吐量。
3)双块注意力DCA(Dual Chunk Attention)与 YARN(Yet Another Rescaling Method):DCA将长序列分割成可管理的长度块;YARN用于重新调整注意力权重,以更好地处理不同长度的序列。
4)使用了 SwiGLU 作为激活函数,RoPE 作为位置编码,QKV bias 来改善注意力机制,以及 RMSNorm 和 pre-normalization 技术来提高训练稳定性。
MoE模型
5)qwen2 MoE(Mixture of Experts,混合专家):作为原始 FFN(前馈网络) 的替代,MoE FFN 由 n 个单独的FFN 组成,每个 FFN 充当一个专家。根据门控网络 G 分配的概率,每个 token 被定向到特定的 expert Ei 进行计算。
下一步任务:微调Qwen2-VL-2B-Instruct,同时使用SwanLab(工作区 | SwanLab)监控训练过程、评估模型效果。