概率论中的PMF、PDF和CDF
在概率论中,PMF(概率质量函数)、PDF(概率密度函数)和CDF(累积分布函数)是描述随机变量分布的三个重要概念。它们分别用于不同类型的随机变量,并帮助我们理解随机事件的概率特性。本文将详细介绍这些概念及其之间的关系。
PMF: Probability Mass Function 概率质量函数
PDF: Probability Density Function 概率密度函数
CDF: Cumulative Distribution Function 累积分布函数
1. PMF(概率质量函数)
PMF用于离散型随机变量。离散型随机变量的取值是有限的或可数的,即它的可能值是可以一一列举出来的,比如掷骰子时的点数(1到6)。
PMF的定义是:对于一个离散型随机变量 X X X,PMF P ( X = x ) P(X = x) P(X=x) 表示随机变量 X X X 取值为 x x x 的概率。具体来说,PMF必须满足以下条件:
-
P ( X = x ) ≥ 0 P(X = x) \geq 0 P(X=x)≥0 对于所有 x x x。
-
所有可能的值 x x x 的概率之和必须为1,即
∑ x P ( X = x ) = 1 \sum_{x} P(X = x) = 1 x∑P(X=x)=1
例如,在掷一个公平的六面骰子的情况下,PMF为:
P ( X = x ) = 1 6 , x = 1 , 2 , 3 , 4 , 5 , 6 P(X = x) = \frac{1}{6}, \quad x = 1, 2, 3, 4, 5, 6 P(X=x)=61,x=1,2,3,4,5,6
2. PDF(概率密度函数)
PDF用于连续型随机变量。与离散型随机变量不同,连续型随机变量的取值是一个区间上的实数(例如身高、体重、时间等)。对于连续型随机变量 X X X,我们无法直接计算 P ( X = x ) P(X = x) P(X=x),因为在任何单一的点上,连续随机变量的概率为0。相反,我们用概率密度来描述其概率分布。
PDF的定义是:一个随机变量 X X X 的概率密度函数 f X ( x ) f_X(x) fX(x) 满足以下条件:
-
f X ( x ) ≥ 0 f_X(x) \geq 0 fX(x)≥0 对于所有 x x x。
-
随机变量 X X X 取某个区间 [ a , b ] [a, b] [a,b] 内的值的概率可以通过积分计算:
P ( a ≤ X ≤ b ) = ∫ a b f X ( x ) d x P(a \leq X \leq b) = \int_a^b f_X(x) \, dx P(a≤X≤b)=∫abfX(x)dx
此外,PDF的整体积分为1,即:
∫ − ∞ ∞ f X ( x ) d x = 1 \int_{-\infty}^{\infty} f_X(x) \, dx = 1 ∫−∞∞fX(x)dx=1
常见的PDF包括正态分布、均匀分布、指数分布等。
例如,标准正态分布的PDF为:
f X ( x ) = 1 2 π e − x 2 / 2 f_X(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2 / 2} fX(x)=2π1e−x2/2
表示一个标准正态随机变量的概率密度。
3. CDF(累积分布函数)
CDF是描述随机变量小于或等于某个特定值的概率的函数。对于任意的随机变量 X X X(无论是离散的还是连续的),其累积分布函数 F X ( x ) F_X(x) FX(x) 定义为:
F X ( x ) = P ( X ≤ x ) F_X(x) = P(X \leq x) FX(x)=P(X≤x)
CDF具有以下两个主要性质:
- 单调性:累积分布函数是单调非降的,即 F X ( x 1 ) ≤ F X ( x 2 ) F_X(x_1) \leq F_X(x_2) FX(x1)≤FX(x2) 对于 x 1 ≤ x 2 x_1 \leq x_2 x1≤x2 成立。
- 极限:当 x → − ∞ x \to -\infty x→−∞ 时, F X ( x ) → 0 F_X(x) \to 0 FX(x)→0;当 x → + ∞ x \to +\infty x→+∞ 时, F X ( x ) → 1 F_X(x) \to 1 FX(x)→1。
CDF可以通过PDF或PMF推导得出:
-
对于离散型随机变量,CDF是PMF的累加:
F X ( x ) = ∑ x ′ ≤ x P ( X = x ′ ) F_X(x) = \sum_{x' \leq x} P(X = x') FX(x)=x′≤x∑P(X=x′) -
对于连续型随机变量,CDF是PDF的积分:
F X ( x ) = ∫ − ∞ x f X ( t ) d t F_X(x) = \int_{-\infty}^{x} f_X(t) \, dt FX(x)=∫−∞xfX(t)dt
4. PMF, PDF, CDF 之间的关系
-
对于离散型随机变量,PMF和CDF有直接的关系。CDF是PMF的累加,表示随机变量小于等于某个值的概率。
-
对于连续型随机变量,PDF和CDF通过积分和导数相关联。具体地,CDF是PDF的积分,而PDF是CDF的导数。即:
F X ( x ) = ∫ − ∞ x f X ( t ) d t , f X ( x ) = d d x F X ( x ) F_X(x) = \int_{-\infty}^{x} f_X(t) \, dt, \quad f_X(x) = \frac{d}{dx} F_X(x) FX(x)=∫−∞xfX(t)dt,fX(x)=dxdFX(x)