当前位置: 首页 > news >正文

大语言模型中Softmax函数的计算过程及其参数描述

文章目录

    • 1. 概要
    • 2. Softmax的定义

1. 概要

**Softmax 作用:**主要用于自注意层,作用是将输出映射成区间在(0,1)的值,并且做了归一化,所有元素的和累加起来等于1。
**Softmax使用场景:**Llama-7B模型中,其在自注意层作为激活函数。

2. Softmax的定义

在这里插入图片描述
在这里插入图片描述
注意:这里的公式对输入进行缩放,可以忽略𝛾的值;


http://www.mrgr.cn/news/77712.html

相关文章:

  • [OpenHarmony5.0][Docker][环境]OpenHarmony5.0 Docker编译环境镜像下载以及使用方式
  • django——创建 Django 项目和 APP
  • Ubuntu24.04LTS设置root用户可远程登录
  • HTTP协议及HTTPS
  • uniapp微信小程序接入airkiss插件进行WIFI配网
  • 【已解决】“EndNote could not connect to the online sync service”问题的解决
  • JS文件相关✅
  • GPT系列文章
  • buuoj WEB做题笔记
  • STL中vector实现——简单易懂版
  • Kylin Server V10 下基于Sentinel(哨兵)实现Redis高可用集群
  • 【笔记】Android Gradle Plugin配置文件相关说明-libs.versions.toml
  • win10 mmpose mmdeploy mmaction2
  • 单元测试框架gtest学习(二)—— 认识断言
  • Java开发者必备:23种设计模式全面解析
  • 数据结构及算法--排序篇
  • Idea集成ApiFox插件
  • 【Redis_Day5】String类型
  • udp_socket
  • 网络编程 作业2
  • 深度学习day2-Tensor 2
  • Electron开发构建工具electron-vite(alex8088)添加VueDevTools(VitePlugin)
  • oracle配置
  • 依赖管理(go mod)
  • Vue3-小兔鲜项目出现问题及其解决方法(未写完)
  • 【Apache Paimon】-- 2 -- 核心特性 (0.9.0)