当前位置：首页 > news >正文

大模型涌现判定

news 2024/10/22 13:52:35

什么是大模型？

大模型：是“规模足够大，训练足够充分，出现了涌现”的深度学习系统；

大模型技术的革命性：延申了人的器官的功能，带来了生产效率量级提升，展现了AGI的可行路径；

大模型的三个关键能力（涌现的行为）：ICL(情景学习能力)，CoT（深度推理能力），LNI（自然指令学习）

大模型智能涌现现象：

数据型规模达到一定水平时，在新任务上的性能显著提高，超出平均水平。

大模型的尺度（scaling laws)：

大模型的泛化表现与学习质量、训练数据规模、参数规模呈指数率关系。

智能涌现：自然现象与多学科启示

智能涌现：由个体的相互作用（简单规则）导致非常智能（复杂而有序）的整体行为。

物理观点：对称性破缺是基础（Anderson，more is different，Science，1972）：尺度是根本要素：1）划分尺度 2）出现新的因果 3）选择最强因果性——因果涌现。

数学观点：极限所展示的行为（极限是开拓认知边界的利器）

$e= \sum_{n=0}^{\infty }\frac{1}{n!}=\lim_{x\rightarrow \infty }(1+\frac{1}{x})^{x}$

$\Pi =4\sum_{n=0}^{\infty }\frac{(-1)^{n}}{2n+1}$

$\sqrt{2} =\lim_{n\rightarrow \infty }x_{n},x_{n}=1+\frac{1}{1+x_{n}}$

大模型智能涌现与尺度率：数学建模

假设 $\varepsilon (N,P,\partial l)$ 是解决任务T的性态函数（如泛化性度量）大模型的智能行为能够通过性态函数反应。

$\varepsilon (N,P,\partial l)\rightarrow \varepsilon (\infty ,\infty ,0)$ (任何意义下)

由此推得

$\varepsilon (\infty ,\infty ,0)-\epsilon \leq inf_{N,P,\partial l} (\varepsilon (N,P,\partial l))\leq \varepsilon (\infty ,\infty ,0)+\epsilon$

大模型是否存在相变？ 存在性就意味着相变！

大模型能不能工作更好？ $\varepsilon (\infty ,\infty ,0)$ 度量了相变后行为！

大模型涌现的判定准则

大模型与极限架构：有限vs无限

模型架构：以“功能块+基块周期性重复”为结构的大规模深度神经网络（映射功能）

一个大模型架构由若干个功能块组成。固定一个功能块，假设该功能含k个基块，且第i个基块定义映射 $T_{i }$ ，则该功能可以表示为k个算子的复合，即

$f_{wp}=T_{w_{k}}\cdot T_{w_{K-1}}\cdot ...\cdot T_{w_{1}}:\chi \rightarrow y$

假设宽度有限，P是K个基块的参数总规模， $w_{p}= [w_{1}...w_{n}]$ 是功能块所有参数。

而无限维系统为

$f_{w}^{*}=\lim_{p\rightarrow \infty }f_{wp}$

本模型极限架构的存在性等价于算子无穷乘积的收敛性。

通过引入非线性Lipschitz算子及特征数（涉及泛函分析，此处不细讲）可以用于描述大模型涌现或尺度率的判定条件。

结论：涌现存在的条件

1）通常假设1和假设3作为A的前提假设，因而上述定理说明：如果大模型的权值能最优设置，而且其基块满足Lip $Lip(T_{i})\leq 1$ 且满足自映射条件，或 $m(A_{i})\geq 0$ 且满足极大单调性条件，则当模型规模，训练数据规模趋于无穷时，则大模型一定会出现涌现。

2) 极限架构行为即表现为涌现具体可刻画可通过选择特定的 $\varepsilon$ 形式（包括线性和损失函数）

结论：模型规模尺度率

模型规模尺度率为指数律或幂率，取决于模型基块的组装方式：A.模式（残差式）要求的条件m（A）>0，一般总是弱于T模式（堆叠式）条件 $Lip(T)$ <1，但以收敛速度更慢为代价。

只剩下偏差（红线），即大模型的插值性将导致泛化性，大模型具有抗耐噪性

一些可以进一步深化的问题？

来自徐宗本院士的分享！

http://www.mrgr.cn/news/54272.html

相关文章：

VTK的学习方法-第一类型应用

Gitlab 完全卸载–亲测可行

专家辅助证人出庭质证实务运用之技巧

来自骨关节炎计划的膝关节MR图像的自动异常感知3D骨骼和软骨分割|文献速递-基于生成模型的数据增强与疾病监测应用

【数据结构与算法】之单链表反转

国内知名十大网站设计公司推荐TOP3

数据结构-5.11.补充：二叉树遍历算法的应用

分布式搜索引擎03

【AUTOSAR标准文档】服务类型介绍

2023年ICPC亚洲合肥赛区赛 C. Cyclic Substrings

【H2O2|全栈】关于CSS（14）如何完成常规的页面布局

基于机器学习的混凝土抗压强度及利用Docker与FastAPI进行模型部署并形成API

鸿蒙应用开发中，实现文件上传功能

查询网站在线人数

Python基础09_类和对象(下)迭代器和生成器函数式编程

UEFI 基础教程（四十八.2） — UEFI code style

org.apache.http.impl.client.CloseableHttpClient的时候如果发生异常

《使用Gin框架构建分布式应用》阅读笔记：p88-p100

群控系统服务端开发模式-功能整理

【移动安全】OWASP MASTG 移动应用程序安全测试指南

大模型~合集14

理解 React 中的 ReactElement、children 和 ReactNode

Java 线程池获取池中所有线程列表的方法

优化方法之随机梯度下降SGD优化器收敛性证明

代码随想录day04

mysql connect -- C api编译链接问题,接口介绍(初始化和销毁,连接,执行sql语句,获取结果集的元数据和数据,设置编码格式)