当前位置：首页 > news >正文

从0开始学统计-什么是中心极限定理

news 2025/7/2 10:33:00

引言

中心极限定理（Central Limit Theorem, CLT）是统计学中的一块基石，它揭示了一个难以置信的数学现象：无论一个随机变量的原始分布如何，只要我们取足够大的样本量，这些样本的平均值（或总和）的分布将趋近于正态分布，这种分布也被称为高斯分布。中心极限定理不仅为我们使用正态分布进行推断提供了理论基础，还让正态分布成了统计学中最为重要的分布之一。

历史

在统计学史上，中心极限定理的发展是一个渐进的过程。它不是一夜之间形成的，而是经过几个世纪的逐步完善，包含了多个数学家和统计学家的贡献。
18世纪，数学家棣莫弗（Abraham de Moivre）和拉普拉斯（Pierre-Simon Laplace）等开始探索二项分布的性质。1718年，在第一本概率理论书籍《道德和机遇的教训》（“The Doctrine of Chances”）中，棣莫弗首次提出了二项分布在大样本极限下趋近于正态分布的概念，这可以看作是中心极限定理的早期形态。拉普拉斯进一步扩展了这个概念，在1812年的《概率分析理论》（“Théorie Analytique des Probabilités”）中，他通过拉普拉斯展开（Laplace expansion）详细论述了这一点，说明在大数极限下，还有更多的分布趋近于正态分布。
1901年，李雅普诺夫（Aleksandr Lyapunov）证明了一个更一般形式的中心极限定理。该定理不仅适用于二项分布，而且适用于任意有限方差的独立随机变量。李雅普诺夫的工作标志着中心极限定理现代形式的开始。
20世纪中叶，数学家们进一步扩展了中心极限定理的适用范围和形式，其中包括对独立但不同分布的随机变量之和的考虑，以及对随机变量序列弱依赖条件下的应用。

什么是中心极限？

让我们来看一个经典的例子，抛硬币实验。假设我们抛硬币的结果只有两种可能：正面（我们记为1）和反面（我们记为0）。每次抛硬币是一个独立的随机试验，结果的分布是二项分布。
现在，我们进行一系列实验。在每个实验中，我们不止抛一次硬币，而是连续抛硬币n次，并记录正面出现的次数。为了直观展示中心极限定理，我们可以重复进行多个这样的实验（例如，1000次），每次都记录下正面出现的比例。例如，做10个抛10次硬币的实验，在4个左右的实验中，有5次朝上，如图所示：
在这里插入图片描述根据中心极限定理，不管单次抛硬币的结果分布如何，只要我们重复足够多次抛硬币操作，并且记录下正面出现的比例，这些比例的分布会趋近于正态分布。具体来说，随着实验次数的增加，这些比例的分布会越来越接近于一个均值为μ=0.5、方差为σ2/n（2指平方）的正态分布，其中σ2=0.25是单次抛硬币结果的方差，n是每次实验中抛硬币的次数。

抛硬币实验说明，即使基础数据（正面或反面）不服从正态分布，大量独立实验的平均结果（或求和结果）也将趋向于正态分布。

什么是期望值？

期望值（Expected Value），也称为数学期望或均值，指在多次随机试验中某个随机变量可能结果的加权平均。对于离散随机变量，期望值是各可能值与其发生概率乘积的总和；对于连续随机变量，期望值是随机变量的概率密度函数乘以随机变量值的积分。

举个例子，假设你有一个标准的六面骰子，每面上的数字分别是1到6。这个实验的随机变量X就是骰子显示的面的数字。因为骰子是公平的，所以每个数字出现的概率都是相同的，即1/6。
我们想计算这个随机变量的期望值，也就是你在多次的掷骰子实验中，可以期待的平均骰子点数。期望值E(X)的计算公式是：
在这里插入图片描述
其中xi是第i面的数字，P(X=xi)是该面出现的概率。因此，对于六面骰子，期望值计算如下：

在这里插入图片描述
这意味着，虽然你不可能真的掷出3.5（因为骰子的面上没有3.5），但如果你做了很多次实验，那么平均每次掷出的期望是3.5。换句话说，期望值给出了在大量重复实验中，观察到的平均结果。
期望值是理论上的平均值。在实际的骰子游戏中，你每次掷骰子的结果是1到6中的一个整数，但如果你记录下非常多次掷骰子的结果，计算平均值，这个平均值会接近于3.5，这就是期望值的含义。

什么是二项分布？

二项分布( binomial distribution)是一种离散概率分布，它描述了在一系列独立的是/非（成功/失败）实验中，获得固定数量成功次数的概率。在独立的是/非（成功/失败）多次实验中，每次实验都被称为伯努利试验，它只有两种可能的结果：成功或失败。二项分布的典型特征是每次试验的成功概率不变。

让我们来看一个具体的例子，一个篮球运动员进行自由投篮训练。假设一个篮球运动员进行10次自由投篮，每次投篮成功的概率是0.5（即50%）。我们想要知道这个运动员在10次投篮中恰好投中5次的概率是多少。这个实验是一个典型的二项分布情景，因为：每次投篮（试验）只有两种可能结果：成功（投中）或失败（未投中）。每次投篮是独立的，即每次投篮的成功概率保持不变，不受前一次投篮结果的影响。我们关注的是在固定次数（n=10次投篮）的试验中成功的次数。使用二项分布的计算公式：
在这里插入图片描述代入数值：

其中，0.5是5次成功的概率，（1-0.5）的5次方部分是剩下的5次试验中失败的概率。计算结果为24.6%。因此，这位篮球运动员在10次自由投篮中恰好投中5次的概率大约是24.6%。