切比雪夫不等式

定理内容

设随机变量X的期望和方差均存在,则对任意ε > 0,有 $$ P(\vert X - EX\vert\geq\varepsilon)\leq\frac{DX}{\varepsilon^{2}} $$ 等价形式为 $$ P(\vert X - EX\vert<\varepsilon)\geq1 - \frac{DX}{\varepsilon^{2}} $$

定理内容解释

切比雪夫不等式告诉我们主要就一件事,对于一个随机变量 X,,如果它的平均值(期望 EX)和波动程度(方差 DX)都知道,那么 X 的值偏离平均值太远的概率是有限的。

表示即使分布未知,随机变量的取值落在期望左右的一定范围内的概率是有界的,该界限和方差有关。DX 越小,落在某范围内的概率就越大,表示 X 取值的概率分布越集中。也就是说,方差 DX 可以表示随机变量 X 取值的离散程度。

描述了任意随机变量的取值偏离其期望值的概率上限,不依赖于具体分布,仅需要方差存在.

具体来说:

  • 偏离的概率X 的值与平均值的差距超过某个阈值 ϵ(比如比平均值高或低超过 10)的概率 P( ∣ X − EX ∣  ≥ ϵ),最多不超过 $\frac{DX}{\varepsilon^{2}}$
    • 方差 DX 越大,数据波动越大,偏离的概率也可能越大。
    • 阈值 ϵ 越大,允许的偏离范围越宽松,概率的上限$\frac{DX}{\varepsilon^{2}}$ 会越小。
  • 集中在平均值的概率:反过来,X 的值落在平均值附近 ϵ 范围内的概率 P( ∣ X − EX ∣  < ϵ),至少是 $1 - \frac{DX}{\varepsilon^{2}}$
    • 这说明数据集中在平均值附近的概率是有保障的。

切比雪夫不等式不需要知道随机变量的具体分布(比如是不是正态分布),只要知道平均值和方差,就能给出概率的界限。它是一种非常通用的工具,适用于任何方差存在的随机变量。

不知道随机变量的分布的原因,其实会在大数定律部分有严谨的体现。

证明

  1. 方差的定义: 随机变量 X 的方差 DX 定义为: DX = E[(X − EX)2]

  2. 概率的积分表示: 对于事件 A,其概率 P(A) 可以表示为: P(A) = ∫AdP

X 是一个随机变量,期望 EX 和方差 DX 均存在。对任意 ε > 0,定义事件: A = {|X − EX| ≥ ε} 我们需要证明: $$ P(|X - EX| \geq \varepsilon) \leq \frac{DX}{\varepsilon^2} $$ 从方差的定义出发:
$$ \begin{aligned} DX &= E\left[(X - EX)^2\right] \\ &= \int_{-\infty}^{\infty} (x - EX)^2 \, dP(x) \\ &\geq \int_A (x - EX)^2 \, dP(x) \quad \text{(因为积分区域缩小到 $A$)} \end{aligned} $$

事件 A 上的估计

在事件 A 上,|X − EX| ≥ ε,因此 (X − EX)2 ≥ ε2。于是:
A(x − EX)2dP(x) ≥ ∫Aε2dP(x) = ε2P(A)

将步骤 1 和步骤 2 的结果结合:
DX ≥ ε2P(A) 整理后得到: $$ P(A) \leq \frac{DX}{\varepsilon^2} $$ 即: $$ P(|X - EX| \geq \varepsilon) \leq \frac{DX}{\varepsilon^2} $$ 由概率的补集性质:
$$ P(|X - EX| < \varepsilon) = 1 - P(|X - EX| \geq \varepsilon) \geq 1 - \frac{DX}{\varepsilon^2} $$ 得证

极限定理

定理内容

大数定理:

  • 定义内容:设 X1, X2, ⋯ 是一列随机变量,令$ n={i = 1}^{n}X_in = 1, 2, $ 。若存在常数列 a1, a2, ⋯,对于任意的 ε > 0,有 $$ \lim_{n\rightarrow\infty}P(|\overline{X}_n - a_n|<\varepsilon)=1 $$ 则称序列 X1, X2, ⋯ 服从大数定律 ;其等价形式是对任意 ε > 0,有 $$ \lim_{n\rightarrow\infty}P(|\overline{X}_n - a_n|\geq\varepsilon)=0 $$

依概率收敛定义

  • 定义内容:设 X1, X2, ⋯, Xn, ⋯ 为一列随机变量,对常数 a 及任意$ >0$ {n}P(|X_n - a|<)=1 $$ 则称序列 $X_1, X_2, , X_n, a$ ,简记为 $X_n\stackrel{p}{\longrightarrow}a$ 或 ${n}X_n = a (p) $。

解释

其实单去理解这个东西不太好理解,但是你结合具体的大数定律的内容去看,然后回来再看估计一眼就丁真了

大数定理部分的直观内容解释一下就是,当 n → ∞ 时,事件 ${|_n - a_n|<} 1,>0$,当 n 充分大时,不等式$ _n - a_n<$以任意接近于 1 的概率成立 。

而依概率收敛定义部分的内容直观解释一下,当$ n X_n$ 落在以 $a $ 为半径的邻域内的概率趋近于 1 ,反映了随机变量序列在概率意义下趋近于某个常数的规律 。

证明

只证明基于切比雪夫不等式的

假设 Xn 满足: 1. 两两不相关:Cov(Xi, Xj) = 0 (i ≠ j) 2. 方差一致有界:supiVar(Xi) ≤ C < ∞ 3. 设 Xn i.i.d. 且 E[X1] = μ,取 $X_n = \overline{X}_n$, a = μ

证明大数定理:

  1. 期望计算$$ E[\overline{X}_n] = \frac{1}{n}\sum_{i=1}^n E[X_i] := \mu_n $$

  2. 方差计算$$ \text{Var}(\overline{X}_n) = \frac{1}{n^2}\sum_{i=1}^n \text{Var}(X_i) \leq \frac{nC}{n^2} = \frac{C}{n} $$

  3. 取常数列 an = μn,应用切比雪夫不等式: $$ P(|\overline{X}_n - \mu_n| \geq \varepsilon) \leq \frac{\text{Var}(\overline{X}_n)}{\varepsilon^2} \leq \frac{C}{n\varepsilon^2} $$

  4. 取极限$$ \lim_{n\to\infty} P(|\overline{X}_n - \mu_n| \geq \varepsilon) \leq \lim_{n\to\infty} \frac{C}{n\varepsilon^2} = 0 $$

  5. 等价形式转换$$ \lim_{n\to\infty} P(|\overline{X}_n - \mu_n| < \varepsilon) = 1 - \lim_{n\to\infty} P(|\overline{X}_n - \mu_n| \geq \varepsilon) = 1 $$

证明依概率收敛

  1. 切比雪夫不等式直接应用$$ P(|\overline{X}_n - \mu| \geq \varepsilon) \leq \frac{\text{Var}(\overline{X}_n)}{\varepsilon^2} = \frac{\sigma^2}{n\varepsilon^2} $$

  2. 取概率补集$$ P(|\overline{X}_n - \mu| < \varepsilon) \geq 1 - \frac{\sigma^2}{n\varepsilon^2} $$

  3. 极限操作$$ \lim_{n\to\infty} P(|\overline{X}_n - \mu| < \varepsilon) \geq \lim_{n\to\infty} \left(1 - \frac{\sigma^2}{n\varepsilon^2}\right) = 1 $$ 又因概率不超过1,故得: $$ \lim_{n\to\infty} P(|\overline{X}_n - \mu| < \varepsilon) = 1 $$

切比雪夫大数定律(Chebyshev’s Law of Large Numbers)

定理内容

X1, X2, …, Xn两两不相关的随机变量序列,且满足: 1. 期望存在E[Xi] = μi(允许不同期望) 2. 方差存在且具有公共上界:存在常数 C > 0,使得 D(Xi) ≤ C 对所有 i 成立

则对任意 ε > 0,有: $$ \lim_{n \to \infty} P\left( \left| \frac{1}{n} \sum_{i=1}^n X_i - \frac{1}{n} \sum_{i=1}^n \mu_i \right| \geq \varepsilon \right) = 0 $$

特别地,若 μ1 = μ2 = … = μ(同期望),则简化为: $$ \lim_{n \to \infty} P\left( \left| \frac{1}{n} \sum_{i=1}^n X_i - \mu \right| \geq \varepsilon \right) = 0 $$

上述为原型定理描述,下述为切比雪夫大数定律的等价概率收敛形式 $$ \lim_{n \to \infty} P\left( \left| \frac{1}{n} \sum_{i=1}^n X_i - \frac{1}{n}E \sum_{i=1}^n \mu_i \right| < \varepsilon \right) = 1 $$ 特别地,当随机变量序列Xn两两独立或者两两不相关,且有相同的有限期望和方差时(记为 EXn = μDXn = σ2n = 1, 2, ...),则对任意 ϵ > 0,有 $$ \lim_{n \to \infty} P\left( \left| \frac{1}{n} \sum_{i=1}^n X_i - \mu \right| < \varepsilon \right) = 1 $$ 这个内容描述了样本均值与期望均值的渐近一致性。当 n → ∞ 时,样本均值与期望均值的差距小于任意正数 ε 的概率趋近于 1。

定理内容解释

我习惯使用切比雪夫大数定律的等价概率收敛形式,而这个形式与原形式完全等价且更容易理解

大数定理简单来说,指得是某个随机事件在单次试验中可能发生也可能不发生,但在大量重复实验中往往呈现出明显的规律性

即该随机事件发生的频率会向某个常数值收敛,该常数值即为该事件发生的概率。

所以切比雪夫大数定律也是一样,等价概率收敛形式就是描述了当样本数据无限大时,样本均值趋于总体均值

这相当于告诉我们,能用频率近似代替概率;能用样本均值近似代替总体均值。使得现实问题被很好解决,而切比雪夫大数定律的等价概率收敛形式是一种弱大数定理,他揭示的内容就是样本均值和真实期望的关系

即样本均值会随着n的不断增大,依概率收敛(简称i.p.收敛 converge in probability,)到真正的总体平均值。

而依概率收敛的意思是,当n越来越大时,随机变量X落在 (c − ε, c + ε) 外的概率趋近于0,不过还是有可能落在外面的,只不过可能是很小,且会随着n的增大,这种可能越来越小。

想象一次抛硬币实验:

  1. Xi表示第i次抛硬币的结果(正面=1,反面=0)
  2. 期望μ = 0.5(公平硬币)
  3. 当我们抛n次后,计算正面的比例$\frac{1}{n}\sum X_i$

当抛硬币次数n越来越大时:

  • 正面的比例几乎必定会非常接近0.5
  • 想要这个比例与0.5的差距超过 ε(对任意 ε > 0,可以取任意大于0的常数)的概率会趋近于0
  • 或者说,比例落在(0.5 − ε, 0.5 + ε)内的概率趋近于100%

证明

只给出基于切比雪夫不等式推导切比雪夫大数定律的等价概率收敛形式证明

令样本均值为: $$ \overline{X}_n = \frac{1}{n} \sum_{i=1}^n X_i $$

由期望的线性性得到均值: $$ E[\overline{X}_n] = \frac{1}{n} \sum_{i=1}^n E[X_i] = \frac{1}{n} \cdot n \mu = \mu $$

计算方差

由于两两不相关: $$ \begin{aligned} \text{Var}(\overline{X}_n) &= \text{Var}\left( \frac{1}{n} \sum_{i=1}^n X_i \right) \\ &= \frac{1}{n^2} \text{Var}\left( \sum_{i=1}^n X_i \right) \\ &= \frac{1}{n^2} \sum_{i=1}^n \text{Var}(X_i) \quad (\text{协方差项为0}) \\ &= \frac{1}{n^2} \cdot n \sigma^2 = \frac{\sigma^2}{n} \end{aligned} $$

应用切比雪夫不等式

对随机变量 $\overline{X}_n$ 应用切比雪夫不等式: $$ P(|\overline{X}_n - E[\overline{X}_n]| \geq \varepsilon) \leq \frac{\text{Var}(\overline{X}_n)}{\varepsilon^2} $$ 代入已求得的期望和方差: $$ P(|\overline{X}_n - \mu| \geq \varepsilon) \leq \frac{\sigma^2}{n \varepsilon^2} $$

取概率补集 $$ \begin{aligned} P(|\overline{X}_n - \mu| < \varepsilon) &= 1 - P(|\overline{X}_n - \mu| \geq \varepsilon) \\ &\geq 1 - \frac{\sigma^2}{n \varepsilon^2} \end{aligned} $$

取极限,当 n → ∞ 时: $$ \lim_{n \to \infty} \left( 1 - \frac{\sigma^2}{n \varepsilon^2} \right) = 1 $$ 由于概率不超过1,由夹逼定理得: $$ \lim_{n \to \infty} P(|\overline{X}_n - \mu| < \varepsilon) = 1 $$

一些证明细节补充

不相关条件的必要性 证明中关键步骤: Var(∑Xi) = ∑Var(Xi) 这要求协方差 Cov(Xi, Xj) = 0 (i ≠ j)。若存在相关性,需修正为: Var(∑Xi) = ∑Var(Xi) + 2∑i < jCov(Xi, Xj)

方差有限的关键作用

σ2 无限大: $$ \frac{\sigma^2}{n \varepsilon^2} \to \infty $$ 导致切比雪夫不等式失效。

收敛速度估计

概率下界: $$ P(|\overline{X}_n - \mu| < \varepsilon) \geq 1 - \frac{\sigma^2}{n \varepsilon^2} $$ 要达到置信水平 1 − α,所需样本量: $$ n > \frac{\sigma^2}{\alpha \varepsilon^2} $$

林德伯格-莱维中心极限定理

定理内容

以下简述为独立同分布的中心极限定理

设随机变量列{Xn},n = 1, 2, ⋯独立同分布,具有有限的期望和方差,EXn = μDXn = σ2 ≠ 0,n = 1, 2, ⋯

则随机变量: $$ Y_n = \frac{\sum_{i = 1}^{n}X_i - n\mu}{\sqrt{n}\sigma} $$ 其分布函数Fn(x),对任意实数x,有:

$$ \lim_{n\rightarrow\infty}F_n(x)=\lim_{n\rightarrow\infty}P\left(\frac{\sum_{i = 1}^{n}X_i - n\mu}{\sqrt{n}\sigma}\leq x\right)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}dt $$ 也可等价表示为(标准化形式变形),令 $$ Y_n = \frac{\frac{1}{n}\sum_{i = 1}^{n}X_i - \mu}{\frac{\sigma}{\sqrt{n}}} $$ 则该定理描述在独立同分布且期望、方差有限的条件下,标准化后的随机变量列Yn的分布以标准正态分布N(0, 1)为极限分布 ,即当n充分大时,Yn近似服从标准正态分布,$_{i = 1}{n}X_i近似服从正态分布N(n,n2) $。

描述如下 $$ \begin{align*} Y_n &= \dfrac{\dfrac{1}{n}\sum_{i=1}^{n}X_i - \mu}{\dfrac{\sigma}{\sqrt{n}}} \\ &= \dfrac{\sum_{i=1}^{n}X_i - n\mu}{\sigma\sqrt{n}} \\ &\xrightarrow{n\to\infty} \mathcal{N}(0,1) \end{align*} $$

解释

就是一件事

无论原始数据是什么分布,只要满足一定条件,当样本量足够大时,样本均值的分布都会变成”钟形曲线”(正态分布)。

我们上面提到的大数定理的内容,样本的平均值约等于总体的平均值,其实跟这个有很大联系,如果你满足了这个条件,那么就很容易能知道,不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布,而且还是标准正态分布。

所以我们看到中心极限定理其实是包含了大数定理的,也就是样本的平均值约定于或者说依概率收敛于总体的平均值。但是自己本身又描述了当样本量足够大时,样本均值的分布都会趋于正态分布这件事。

下述找到的一个描述定理内容的内容,这也就是说上面这件事

Xn 是独立同分布(i.i.d.)的随机变量序列,且: 1. E[Xi] = μ 2. Var(Xi) = σ2 < ∞

则当 n → ∞ 时,标准化样本均值的分布收敛到标准正态分布: $$ \frac{\overline{X}_n - \mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0,1) $$ 其中 $\overline{X}_n = \frac{1}{n}\sum_{i=1}^n X_i$

标准化的过程如下 $$ Z_n = \frac{\overline{X}_n - \mu}{\sigma/\sqrt{n}} = \frac{\text{样本均值} - \text{理论均值}}{\text{标准误}} $$ - 分子:中心化(消除均值影响) - 分母:按波动幅度缩放

还是以抛硬币为例子

  • 抛硬币n次,记正面为1,反面为0

  • Xi表示第i次结果,则μ = 0.5σ2 = 0.25

假设一个下述表格啊

实验次数n 总正面数Sn 标准化形式 $\frac{S_n - n\mu}{\sigma\sqrt{n}}$ 分布形状
10 5 0 离散
100 55 1.0 接近钟形
10,000 5,050 1.0 完美正态

至于为什么要独立同分布,因为若Xi分布不同,可能需要更复杂的林德伯格条件,会爆炸

证明

这个证明扫码了

前置知识

特征函数定义 ϕY(t) = E[eitY] - N(0, 1) 的特征函数:ϕ(t) = et2/2 - 独立随机变量和的特征函数:ϕX + Y(t) = ϕX(t)ϕY(t) - 标准化:ϕaY(t) = ϕY(at)

标准化先

$Y_i = \frac{X_i - \mu}{\sigma}$,则: - E[Yi] = 0 - Var(Yi) = 1 - $Z_n = \frac{1}{\sqrt{n}}\sum_{i=1}^n Y_i$

计算 Zn 的特征函数 $$ \begin{aligned} \phi_{Z_n}(t) &= E\left[ \exp\left( it \cdot \frac{1}{\sqrt{n}}\sum_{k=1}^n Y_k \right) \right] \\ &= \prod_{k=1}^n E\left[ \exp\left( \frac{it}{\sqrt{n}} Y_k \right) \right] \quad (\text{独立性}) \\ &= \left[ \phi_Y\left( \frac{t}{\sqrt{n}} \right) \right]^n \quad (\text{同分布}) \end{aligned} $$

Taylor 展开 ϕY(t)

t = 0 处展开特征函数: $$ \phi_Y(t) = 1 + itE[Y] - \frac{t^2}{2}E[Y^2] + o(t^2) $$ 代入 E[Y] = 0E[Y2] = 1 得: $$ \phi_Y(t) = 1 - \frac{t^2}{2} + o(t^2) $$

近似 $\phi_Y(t/\sqrt{n})$

对于固定 t,当 n → ∞ 时: $$ \phi_Y\left( \frac{t}{\sqrt{n}} \right) = 1 - \frac{t^2}{2n} + o\left( \frac{t^2}{n} \right) $$

取对数展开 $$ \begin{aligned} \ln \phi_{Z_n}(t) &= n \ln \left[ 1 - \frac{t^2}{2n} + o\left( \frac{1}{n} \right) \right] \\ &= n \left[ -\frac{t^2}{2n} + o\left( \frac{1}{n} \right) \right] \quad (\text{利用} \ln(1+x) \approx x) \\ &= -\frac{t^2}{2} + o(1) \end{aligned} $$

指数化取极限 $$ \lim_{n \to \infty} \phi_{Z_n}(t) = \lim_{n \to \infty} \exp\left( -\frac{t^2}{2} + o(1) \right) = e^{-t^2/2} $$

由特征函数逐点收敛: ϕZn(t) → et2/2  ∀t ∈ ℝ 根据 Levy 连续性定理,即得 $Z_n \xrightarrow{d} N(0,1)$

补充说明

需要验证: $$ n \cdot o\left( \frac{t^2}{n} \right) \to 0 $$ 这由特征函数在 0 处的二阶可导性保证。 而且 正态分布的特征函数 et2/2 是唯一的,确保收敛目标明确。