哪六大分布
离散型分布
- 两点分布 X ∼ B(1, p)
- 二项分布 X ∼ B(n, p)
- 泊松分布 X ∼ P(λ)
连续型分布
- 均匀分布 X ∼ U(a, b)
- 指数分布 X ∼ E(λ)
- 正态分布 X ∼ N(μ, σ2)
之后搞一个每个分布都单开一个文章把里面所有需要搞的东西,全搞了
一些公式备忘
期望公式
离散型随机变量的期望
若随机变量 X 取值为 x1, x2, …, xn,对应概率为 P(X = xi) = pi,则期望为 $$ E(X) = \sum_{i=1}^{n} x_i \cdot p_i $$
连续型随机变量的期望
若随机变量 X 的概率密度函数为 f(x),则期望为: E(X) = ∫−∞+∞x ⋅ f(x) dx
方差公式
基于期望的定义式
随机变量 X 的方差表示为D(X),定义为: D(X) = E[(X − E(X))2]
展开计算式
D(X) = E(X2) − [E(X)]2
离散型随机变量的方差
$$ D(X) = \sum_{i=1}^{n} (x_i - E(X))^2 \cdot p_i $$
连续型随机变量的方差
D(X) = ∫−∞+∞(x − E(X))2 ⋅ f(x) dx
标准差
方差的平方根为标准差,记为 σ $$ \sigma = \sqrt{D(X)} $$
两点分布
定义,分布列和表示
独立试验:某试验 E 重复 n 次,概率上互不影响,称为 n 重独立试验
伯努利试验:若 n 重独立试验其中一次试验只有两种结果,称为伯努利试验
两点分布(Bernoulli Distribution)是描述单次伯努利试验结果的离散概率分布,其随机变量 X 只有两种可能的取值:
X = 1(表示”成功”),概率为 p
X = 0(表示”失败”),概率为 1 − p
分布列为
X | 0 | 1 |
---|---|---|
P | 1 − p | p |
两点分布的概率质量函数为: $$ P(X = k) = \begin{cases} p & \text{如果 } k = 1 \\ 1 - p & \text{如果 } k = 0 \end{cases} $$ 或者 P(X = k) = pk(1 − p)1 − k, k ∈ {0, 1}
分布函数
分布函数为: $$ F(X) = \begin{cases} 0 & X < 0 \\ 1 - p & 0 \leq X < 1 \\ 1 & x \geq 1 \end{cases} $$ 累积分布函数为: $$ F(k; n, p) = P(X \leq k) = \sum_{i=0}^k \binom{n}{i} p^i (1-p)^{n-i} $$
性质
数字特征
期望 E(X)
E[X] = 1 ⋅ p + 0 ⋅ (1 − p) = p
方差D(X)
D(X) = E[X2] − (E[X])2 = p − p2 = p(1 − p)
特征函数
φ(t) = E[eitX] = 1 − p + peit
二项分布
定义,分布列和表示
二项分布(Binomial Distribution)是描述n重伯努利试验中成功次数的离散概率分布,其随机变量 X 表示在 n 次独立试验中成功的次数,取值范围为 X ∈ {0, 1, 2, …, n},则称 X 服从参数 n,p 的二项分布,记为 X ∼ B(n, p)
概率质量函数(PMF): P(X = k) = Cnk pk (1 − p)n − k, k = 0, 1, …, n 其中: - n 为试验次数 - p 为每次试验的成功概率,0 ≤ p < 1 - $\binom{n}{k} = \frac{n!}{k!(n-k)!}$ 是组合数
当 n = 1的时候,P(X = k) = Cnk pk (1 − p)n − k k = 0, 1,此时为两点分布,所以,二项分布为两点分布的特例。
分布列:
X | 0 | 1 | ⋯ | n |
---|---|---|---|---|
P | (1 − p)n | np(1 − p)n − 1 | ⋯ | pn |
分布函数
累积分布函数(CDF): $$ F(k; n, p) = P(X \leq k) = \sum_{i=0}^k \binom{n}{i} p^i (1-p)^{n-i} $$
分步表示: $$ F(x) = \begin{cases} 0 & x < 0 \\ \sum_{i=0}^{\lfloor x \rfloor} \binom{n}{i} p^i (1-p)^{n-i} & 0 \leq x < n \\ 1 & x \geq n \end{cases} $$
性质
- 可加性:若 X ∼ B(n, p),Y ∼ B(m, p) 且独立,则 X + Y ∼ B(n + m, p)
- 极限性质:当 n → ∞ 且 np 固定时,二项分布近似泊松分布
- 对称性:当 p = 0.5 时,分布关于 $\frac{n}{2}$ 对称
数字特征
期望 E(X)
E[X] = np
方差 D(X)
D(X) = np(1 − p)
矩母函数
M(t) = (1 − p + pet)n
特征函数
φ(t) = (1 − p + peit)n
与其他分布的关系
- 两点分布:当 n = 1 时,二项分布退化为两点分布
- 泊松分布:当 n → ∞,np = λ 时,B(n, p) ≈ Poisson(λ)
- 正态分布:当 n 较大时,B(n, p) ≈ N(np, np(1 − p))(中心极限定理)
应用示例
案例1:抛硬币10次,正面朝上的次数 X ∼ B(10, 0.5) $$ P(X=5) = \binom{10}{5} (0.5)^5 (0.5)^5 \approx 0.246 $$
案例2:生产线不良品检测,每件不良概率0.01,检测100件: $$ E[X] = 100 \times 0.01 = 1 \\ D(X) = 100 \times 0.01 \times 0.99 = 0.99 $$
R/Python代码示例
1 | # R 语言 |
1 | from scipy.stats import binom |
泊松分布
泊松定理
设 Xn ∼ B(n, pn) 为服从二项分布的随机变量,其中 n 为试验次数,pn 为每次试验中事件 A 发生的概率。若满足: limn → ∞npn = λ (λ > 0为常数) 则对任意固定的非负整数 k,有: $$ \lim_{n \to \infty} P(X_n = k) = \frac{\lambda^k}{k!} e^{-\lambda},\quad k = 0,1,2,\dots $$
定义,分布列和表示
泊松分布(Poisson Distribution)是描述单位时间或空间内稀有事件发生次数的离散概率分布,其随机变量 X 表示在给定区间内事件发生的次数,取值范围为 X ∈ {0, 1, 2, …}。
概率质量函数(PMF): $$ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0,1,2,\dots $$ 其中: - λ 为事件的平均发生率(λ > 0) - e 是自然对数的底(约2.71828)
用组合数表示(当作为二项分布的极限时): $$ P(X = k) = \lim_{n \to \infty} C_n^k p^k (1-p)^{n-k} = \lim_{n \to \infty} C_n^k \left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k} $$
分布函数
分布函数(CDF): $$ F(k; \lambda) = P(X \leq k) = e^{-\lambda}\sum_{i=0}^k \frac{\lambda^i}{i!} $$
分步表示: $$ F(x) = \begin{cases} e^{-\lambda}\sum_{i=0}^{\lfloor x \rfloor} \frac{\lambda^i}{i!} & x \geq 0 \\ 0 & x < 0 \end{cases} $$
性质
- 可加性:若 X ∼ P(λ1),Y ∼ P(λ2) 且独立,则 X + Y ∼ P(λ1 + λ2)
- 分解性:泊松过程在子区间上的计数仍服从泊松分布
- 稀有性:适用于发生概率小但试验次数多的事件
数字特征
期望 E(X)
E[X] = λ
方差 D(X)
D(X) = λ
矩母函数
M(t) = eλ(et − 1)
特征函数
φ(t) = eλ(eit − 1)
与其他分布的关系
- 二项分布:当 n → ∞,np = λ 时,B(n, p) ≈ P(λ)
- 正态分布:当 λ 较大时,P(λ) ≈ N(λ, λ)
- 指数分布:泊松过程的事件间隔时间服从指数分布
应用示例
案例1:某路口每小时平均通过3辆车: $$ P(X=5) = \frac{3^5}{5!}e^{-3} \approx 0.1008 $$
案例2:DNA序列变异检测,每1000bp平均0.1个突变: $$ \lambda = 0.1 \\ P(X \geq 1) = 1 - P(X=0) = 1 - e^{-0.1} \approx 0.0952 $$
R/Python代码示例
1 | # R 语言 |
1 | # Python |
均匀分布
定义和表示
均匀分布是最简单的连续型概率分布,分为离散均匀分布和连续均匀分布两种主要形式。
离散型的只给出定义相关,不讨论,主要讨论连续
离散均匀分布
定义: 若随机变量 X 有有限个取值 {x1, x2, …, xn},且每个取值概率相等,则称 X 服从离散均匀分布,记作: X ∼ U{x1, x2, …, xn}
概率质量函数(PMF): $$ P(X=x_k) = \frac{1}{n}, \quad k=1,2,\dots,n $$
连续均匀分布
定义: 若随机变量 X 在区间 [a, b] 上有恒定的概率密度,则称 X 服从[a, b]上的连续均匀分布,记作: X ∼ U(a, b)
概率密度函数(PDF): $$ f(x) = \begin{cases} \frac{1}{b-a} & a \leq x \leq b \\ 0 & \text{其他} \end{cases} $$
标准均匀分布
当 a = 0, b = 1 时称为标准均匀分布 U(0, 1),它表示在区间 [0, 1] 内每个点的取值概率 “均匀” 分布,即不存在任何一个子区间的概率高于其他等长的子区间。
若随机变量 (X U(0,1)),其概率密度函数为: $$ f(x) = \begin{cases} 1, & 0 \leq x \leq 1, \\ 0, & \text{其他}. \end{cases} $$ 图像为一条在 [0, 1] 区间内高度为 1、其他区间为 0 的水平线,总面积(即概率总和)为 1 × 1 = 1,符合概率公理。
累积分布函数 F(x) 表示 X ≤ x 的概率,定义为: $$ F(x) = \begin{cases} 0, & x < 0, \\ x, & 0 \leq x \leq 1, \\ 1, & x > 1. \end{cases} $$ 数学期望:$E(X) = \int_{-\infty}^{+\infty} x \cdot f(x) \, dx = \int_{0}^{1} x \cdot 1 \, dx = \left. \frac{x^2}{2} \right|_0^1 = \frac{1}{2}$
方差:先计算 E(X2):$E(X^2) = \int_{0}^{1} x^2 \cdot 1 \, dx = \left. \frac{x^3}{3} \right|_0^1 = \frac{1}{3}$,再由方差公式 D(X) = E(X2) − [E(X)]2 得:$D(X) = \frac{1}{3} - \left(\frac{1}{2}\right)^2 = \frac{1}{3} - \frac{1}{4} = \frac{1}{12}$
分布函数
离散情形
分布函数(CDF): $$ F(x) = \frac{|\{x_i \leq x\}|}{n}, \quad x \in \mathbb{R} $$
连续情形
累积分布函数(CDF): $$ F(x) = \begin{cases} 0 & x < a \\ \frac{x-a}{b-a} & a \leq x < b \\ 1 & x \geq b \end{cases} $$
数字特征
期望 E(X)
- 离散情形: $$ E[X] = \frac{1}{n}\sum_{i=1}^n x_i $$
- 连续情形: $$ E[X] = \frac{a+b}{2} $$
方差 D(X)
- 离散情形: $$ D(X) = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 $$
- 连续情形: $$ D(X) = \frac{(b-a)^2}{12} $$
特征函数
- 离散情形: $$ \varphi(t) = \frac{1}{n}\sum_{k=1}^n e^{itx_k} $$
- 连续情形: $$ \varphi(t) = \frac{e^{itb} - e^{ita}}{it(b-a)} $$
重要性质
线性变换不变性: 若 X ∼ U(a, b),则 Y = cX + d ∼ U(ca + d, cb + d)(c > 0)
概率计算: 对于 [c, d] ⊆ [a, b]: $$ P(c \leq X \leq d) = \frac{d-c}{b-a} $$
顺序统计量: 若 X1, …, Xn ∼ U(0, 1),则第 k 个顺序统计量 X(k) 服从 Beta 分布: X(k) ∼ Beta(k, n − k + 1)
应用场景
- 随机数生成:计算机生成的伪随机数通常基于 U(0, 1)
- 几何概率:在几何图形中随机取点的坐标分布
- 舍入误差:测量中的舍入误差常服从均匀分布
- 等概率抽样:问卷调查中的随机抽样
与其他分布的关系
与三角分布的关系: 两个独立同分布的 U(a, b) 随机变量之和服从三角分布
与指数分布的关系: 若 U ∼ U(0, 1),则 $X = -\frac{\ln U}{\lambda}$ 服从 Exp(λ)
与正态分布的关系: 通过Box-Muller变换可将两个独立的 U(0, 1) 转换为标准正态分布
R/Python代码示例
1 | # R 语言示例 |
1 | import numpy as np |
指数分布
定义与表示
指数分布是描述泊松过程中事件间隔时间的连续概率分布,其随机变量 X 表示独立事件发生的间隔时间,取值范围为 X ∈ [0, ∞)。
概率密度函数(PDF): $$ f(x) = \begin{cases} \lambda e^{-\lambda x} & x \geq 0 \\ 0 & x < 0 \end{cases} $$ 其中: - λ > 0 为率参数(单位时间事件发生次数),常数 - 期望值 $E[X] = \frac{1}{\lambda}$
则称 X 服从参数为 λ 的指数分布,记为 X ∼ E(λ)
标准形式(当 λ = 1 时): f(x) = e−x, x ≥ 0
分布函数
累积分布函数(CDF): $$ F(x;\lambda) = \begin{cases} 1 - e^{-\lambda x} & x \geq 0 \\ 0 & x < 0 \end{cases} $$
生存函数: S(x) = 1 − F(x) = e−λx, x ≥ 0
数字特征
期望 E(X)
$$ E[X] = \frac{1}{\lambda} $$
方差 D(X)
$$ D(X) = \frac{1}{\lambda^2} $$
偏度
Skewness = 2
峰度
Kurtosis = 6
矩母函数
$$ M(t) = \frac{\lambda}{\lambda - t}, \quad t < \lambda $$
特征函数
$$ \varphi(t) = \frac{\lambda}{\lambda - it} $$
重要性质
无记忆性(Memoryless Property): P(X > s + t ∣ X > s) = P(X > t), ∀s, t > 0 这是指数分布的标志性特征
与泊松分布的关系:
- 若单位时间内事件发生次数 N ∼ Poisson(λ)
- 则事件间隔时间 X ∼ Exp(λ)
几何分布的连续类比: 指数分布是连续情形下的”几何分布”
应用场景
- 生存分析:设备寿命建模
- 排队论:顾客到达间隔时间
- 可靠性工程:电子元件失效时间
- 金融:极端事件发生间隔
与其他分布的关系
关系 | 说明 |
---|---|
泊松过程 | 间隔时间 ∼ 指数分布 ⇔ 计数 ∼ 泊松分布 |
Gamma分布 | n 个独立指数分布的和 ∼ Gamma(n, λ) |
几何分布 | 离散时间的指数分布类比 |
Weibull分布 | 指数分布是 Weibull 分布 (k = 1) 的特例 |
R/Python代码示例
1 | # R 语言示例 |
1 | # Python 示例 |
参数估计
给定样本 x1, ..., xn:
极大似然估计: $$ \hat{\lambda} = \frac{n}{\sum_{i=1}^{n} x_i} = \frac{1}{\bar{x}} $$ 矩估计: $$ \hat{\lambda} = \frac{1}{\bar{x}} $$
正态分布(Normal Distribution)
定义与表示
正态分布(又称高斯分布)是连续概率分布中最重要的分布,其随机变量 X 取值范围为 X ∈ (−∞, +∞)。
概率密度函数(PDF): $$ \Large f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$ 其中: - μ 为位置参数(均值) - σ > 0 为尺度参数(标准差)
标准正态分布
标准正态分布(μ = 0, σ = 1):
$$ \Large \phi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} $$
如何将一个正态分布标准化:
将一个普通正态分布 X ∼ N(μ, σ2) 转换为标准正态分布 Z ∼ N(0, 1) 的过程称为标准化。
标准化公式 $$ Z = \frac {X - \mu}{\sigma} $$ 其中:
- μ 是原分布的均值
- σ 是原分布的标准差(σ > 0)
标准化的性质
均值 E[Z] = 0
方差 Var(Z) = 1
概率密度函数 $$ \phi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} $$
为什么要将一个正态分布标准化
统计推断基础
假设检验:Z检验/t检验都依赖标准化统计量 $$ Z = \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} $$
置信区间:95%置信区间构建基于标准正态分位数 $$ \bar{X} \pm 1.96\frac{\sigma}{\sqrt{n}} $$
中心极限定理:证明样本均值标准化后收敛于N(0, 1)
实际例子
案例:某考试分数 X ∼ N(75, 102),求分数高于90分的概率。
解法:
标准化:
$Z = \frac{90 - 75}{10} = 1.5$
查标准正态分布表:
P(X > 90) = P(Z > 1.5) = 1 − Φ(1.5) ≈ 0.0668
分布函数
累积分布函数(CDF): $$ \Phi(x;\mu,\sigma) = \frac{1}{2}\left[1 + \text{erf}\left(\frac{x-\mu}{\sigma\sqrt{2}}\right)\right] $$ 其中 erf 为误差函数: $$ \text{erf}(x) = \frac{2}{\sqrt{\pi}}\int_0^x e^{-t^2}dt $$
分位函数: Φ−1(p; μ, σ) = μ + σΦ−1(p; 0, 1)
数字特征
期望 E(X)
E[X] = μ
方差 D(X)
D(X) = σ2
偏度
Skewness = 0
峰度
Kurtosis = 3
矩母函数
$$ M(t) = e^{\mu t + \frac{\sigma^2 t^2}{2}} $$
特征函数
$$ \varphi(t) = e^{i\mu t - \frac{\sigma^2 t^2}{2}} $$
重要性质
线性变换不变性: 若 X ∼ N(μ, σ2),设 Y = aX + b,则$ Y $依旧满足正态分布
则Y ∼ N(aμ + b, a2σ2)
曲线性质:
μ决定曲线的对称轴的位置
σ 决定曲线的陡峭程度(σ 越小,数据越集中,曲线越陡峭,σ 越大,数据越分散,曲线越平缓)
可加性: 独立正态变量的和仍服从正态分布: X ∼ N(μ1, σ12), Y ∼ N(μ2, σ22) ⇒ X + Y ∼ N(μ1 + μ2, σ12 + σ22)
中心极限定理: 独立同分布随机变量和的标准化形式依分布收敛于标准正态分布
3σ准则: $$ P(|X-\mu| \leq \sigma) \approx 0.6827 \\ P(|X-\mu| \leq 2\sigma) \approx 0.9545 \\ P(|X-\mu| \leq 3\sigma) \approx 0.9973 $$
参数估计
极大似然估计(MLE)
给定样本 x1, ..., xn:
均值估计: $$ \hat{\mu} = \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i $$
方差估计: $$ \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 $$
性质: - μ̂ 是无偏估计
- σ̂2 是有偏估计(修正为 $s^2 = \frac{n}{n-1}\hat{\sigma}^2$ 后无偏)
矩估计
一阶矩: μ̂ = x̄
二阶中心矩: $$ \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 $$
贝叶斯估计
假设先验分布: - μ ∼ N(μ0, τ2) - σ2 ∼ Inv-Gamma(α, β)
后验分布: p(μ, σ2|x) ∝ p(x|μ, σ2)p(μ)p(σ2)
假设检验
均值检验
单样本Z检验(σ已知): $$ Z = \frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}} \sim N(0,1) $$
单样本t检验(σ未知): $$ t = \frac{\bar{x}-\mu_0}{s/\sqrt{n}} \sim t_{n-1} $$
方差检验
卡方检验: $$ \chi^2 = \frac{(n-1)s^2}{\sigma_0^2} \sim \chi_{n-1}^2 $$
R/Python代码示例
```r # R 语言示例 rnorm(10, mean=0, sd=1) # 生成10个N(0,1)随机数 pnorm(1.96) # 计算Φ(1.96) qnorm(0.975) # 计算Φ^{-1}(0.975)