这俩函数都是什么
先说点别的
随机变量的本质是?
我下面一条条说
- 其实就是一个取值个数 >= 2 的变量,而且这个变量的取值不固定,要不然怎么叫随机
- 不固定的意思是,每个取值都有可能出现,但具体出现哪个,是不固定的
- 正因此,随机变量还可以是个函数,由于每个随机结果都有一个唯一的数字与之对应,所以随机变量X就符合了函数的定义
- 就有了关于随机变量的定义
- 设E为随机试验,Ω = ω为其样本空间,若对任意 ω ∈ Ω,有唯一实数X(ω)与之对应,则称X(ω)为随机变量
那么离散型随机变量的本质就很明显了
- 随机变量的每个取值,都可以被列举出来,但是可以有无数个
连续性随机变量就是
- 随机变量的每个取值,根本无法列举出来,因为连续型变量的取值是一个实数区间
那么概率函数和概率分布这些前缀又如何解释
- 概率函数,顾名思义,用函数的形式来表达概率,拥有函数的性质,概率函数一次只能一个取值的概率
- 概率分布,顾名思义,就是概率的分布,还是讲的”概率”,不过侧重点在于”分布”,如果你的随机变量是离散型的,那么概率分布就可以写成一个分布列,如果你的随机变量是连续型的,那么就会写成概率分布函数
那么什么是概率密度函数
- 离散型的不叫这个名,叫概率质量函数,而连续型随机变量才用概率密度函数(PDF)。其作用是给出随机变量每一个可能取值对应的概率 P(X = xi),具体的表现就是离散型随机变量函数的分布列,必须满足所有概率之和为1,且对不在定义域内的 x,有 P(X = x) = 0。”
- 而连续型随机变量才用概率密度函数(PDF),为什么是密度,因为由于连续型变量的取值是一个实数区间,如果把这个区间均分成多少份,则可无限细分下去
- 而概率密度函数,就是描述连续性随机变量取值情况的一个函数罢了,通过它是求不出概率值的,要求具体的概率值,要通过概率分布函数
- 概率密度函数是概率分布函数F(X)的导数,F′(X) = f(x),所以概率分布函数是概率密度函数的积分,F(x) = P(X ≤ x) = ∫−∞xf(t) dt
什么是概率分布函数
- 概率分布函数,也叫概率的累积分布函数,累积分布函数,重点是累积
- 分布函数F(x) = P(X ≤ x)中,x是自变量,X是随机变量,分布函数求出来的是一个概率值,是0 ≤ F(x) ≤ 1,因此求出来的概率值是:随机变量X 的全部可能取值位于x 左侧的概率和,所以分布函数,也可称为:累积分布函数。
那么上述都是一个变量的情况,两个或者多个变量的联合分布也是这样吗?
随机变量就是二维或者多维的情况下,本质上,多个随机变量视作为一个整体,那么此时讨论与理解的情况与上述一维的差异就不是很明显了。
这就是为什么,多维的联合随机变量,包括他们涉及到的联合概率分布列,联合概率分布函数,前面为什么都有联合二字了。
概率密度函数与概率分布函数的关系
进入正题。
概率密度函数
概率密度函数的定义
对于连续型随机变量 X,其概率密度函数 f(x) 是一个满足以下两个条件的可测函数:
非负性条件 f(x) ≥ 0 对所有 x ∈ ℝ
归一化条件 ∫−∞+∞f(x) dx = 1
根据上述定义,可以反映出概率密度函数的密度意义:f(x) 反映概率在 x 处的”密集程度”,而非直接概率值
以上的一维的情况,下述为二维联合概率密度函数的定义
设连续型随机变量 (X, Y) 的联合分布函数为 F(x, y),若存在非负可测函数 f(x, y),使得对任意实数 x, y,满足: F(x, y) = ∫−∞y∫−∞xf(u, v) du dv 则称 f(x, y) 为 (X, Y) 的二维联合概率密度函数,满足以下性质:
非负性:f(x, y) ≥ 0,对所有 (x, y) ∈ ℝ2;
归一化条件: ∫−∞+∞∫−∞+∞f(x, y) dx dy = 1
若再扩展涉及到多维的话
若存在 f(x) ≥ 0 使得: F(x) = ∫−∞x1⋯∫−∞xnf(t1, …, tn) dt1⋯dtn 则称 f 为联合 PDF。此时边缘密度为: $$ f_{X_i}(x_i) = \int_{\mathbb{R}^{n-1}} f(\mathbf{x}) \prod_{\substack{j \neq i}} dx_j $$ 以下等价:
- 联合 CDF 可分解:$F_{\mathbf{X}}(\mathbf{x}) = \prod_{i=1}^n F_{X_i}(x_i)$
- 联合 PDF 可分解:$f_{\mathbf{X}}(\mathbf{x}) = \prod_{i=1}^n f_{X_i}(x_i)$
- 对离散型:$P(\mathbf{X} = \mathbf{x}) = \prod_{i=1}^n P(X_i = x_i)$
核心作用
通过积分计算概率: P(a ≤ X ≤ b) = ∫abf(x) dx 即:概率等于概率密度函数在该区间上的定积分。
连续型随机变量的定义
所以,可以由上述概率密度函数的定义得到连续型随机变量的定义
对于随机变量X,若存在非负可积函数f(x)(f(x)为X的概率密度函数 ),使得对任意实数x,其分布函数 F(x) = ∫−∞xf(t)dt 则称X为连续型随机变量 。f(x)的图形为概率密度曲线
概率密度函数的性质
非负性(基本性质) f(x) ≥ 0 对所有 x ∈ ℝ
- 概率密度不可能为负值
- 违反此条件的函数不能作为PDF
规范性(基本性质) ∫−∞+∞f(x) dx = 1
- 全空间概率总和必须为1
- 归一化验证:新构建的PDF必须验证积分是否为1
概率计算特性
对任意区间[a, b] P(a ≤ X ≤ b) = ∫abf(x) dx
单点概率:P(X = c) = 0
开区间与闭区间概率相同: P(a < X < b) = P(a ≤ X ≤ b)
单点概率 P(X = a) = ∫aaf(x) dx = 0
与概率分布函数的关系
CDF(分布函数)是PDF(概率密度函数)的积分 F(x) = ∫−∞xf(t) dt
PDF是CDF的导数(几乎处处成立): $$ f(x) = \frac{d}{dx} F(x) $$ 例外点:CDF不可导处(如均匀分布的边界)
这就是文章本来想要写的初衷((相对概率意义: $$ \frac{f(x_1)}{f(x_2)} \text{ 反映 } x_1 \text{ 与 } x_2 \text{ 处的概率密度比} $$
变换不变性:
若 Y = g(X) 且 g 是严格单调可导函数 $$ f_Y(y) = f_X\left(g^{-1}(y)\right) \cdot \left| \frac{d}{dy} g^{-1}(y) \right| $$ 特别地,线性变换 Y = aX + b: $$ f_Y(y) = \frac{1}{|a|} f_X\left( \frac{y - b}{a} \right) $$
独立性依据 fX, Y(x, y) = fX(x)fY(y) ⇔ X, Y独立
边缘密度
一维情况的如下 fX(x) = ∫−∞+∞fX, Y(x, y) dy 而其中,从联合 PDF 中消去另一个变量,可以得到单个变量的概率密度函数
- X 的边缘密度:fX(x) = ∫−∞+∞f(x, y) dy
- Y 的边缘密度:fY(y) = ∫−∞+∞f(x, y) dx
矩生成特性
- k 阶原点矩:E[Xk] = ∫−∞+∞xkf(x) dx
- 方差计算:D(X) = E[X2] − (E[X])2
条件概率密度函数
给定 X = x 时,Y 的条件密度:
若 fX(x) > 0,则 $$ f_{Y|X}(y|x) = \frac{f(x,y)}{f_X(x)} $$ 解释:在 X 固定为 x 的条件下,Y 的概率密度分布。
给定 Y = y 时,X 的条件密度:
若 fY(y) > 0,则 $$ f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)} $$
条件密度函数的性质也遵循两个基本性质
- 非负性:fY|X(y|x) ≥ 0;
- 归一化:∫−∞+∞fY|X(y|x) dy = 1
多维随机变量的独立性判定
随机变量 X 和$ Y$ 独立的充要条件为:
- 联合 PDF 可分解为边缘 PDF 的乘积:f(x, y) = fX(x) ⋅ fY(y) 对所有 (x, y)
- 联合分布函数可分解为边缘分布函数的乘积:F(x, y) = FX(x) ⋅ FY(y)
- 条件密度等于边缘密度:fY|X(y|x) = fY(y) 或 fX|Y(x|y) = fX(x)
二维随机变量的函数变换
和的分布:Z = X + Y
若 X 和 Y 独立,联合 PDF 为 f(x, y) = fX(x)fY(y),则 Z 的 PDF 为: fZ(z) = ∫−∞+∞fX(x)fY(z − x) dx (卷积公式) 离散的情况: PZ(z) = ∑xPX(x) ⋅ PY(z − x)
- 求和范围为所有满足 z − x 是 $Y $可能取值的 x。本质上是离散形式的卷积
商的分布:$Z = \frac{X}{Y}$
设 Y ≠ 0,则$ Z 的PDF为:$ f_Z(z) = _{-}^{+} |y| f_X(zy)f_Y(y) , dy $$ 离散的情况:
Y ≠ 0,且 Z 的可能取值为 $z = \frac{x}{y}$($x $ 为 $ X$ 的取值,y 为 Y 的非零取值),则 Z 的 PMF 为: $$ P_Z(z) = \sum_{\substack{y: y \neq 0 \\ x = zy}} P_X(zy) \cdot P_Y(y) $$
- 求和范围为所有非零 y 且满足 zy 是 X 的可能取值。
一般变换:U = g(X, Y), V = h(X, Y)
若变换 (g, h) 是一一映射且可微,雅可比行列式为: $$ J = \frac{\partial(x,y)}{\partial(u,v)} = \begin{vmatrix} \frac{\partial x}{\partial u} & \frac{\partial x}{\partial v} \\ \frac{\partial y}{\partial u} & \frac{\partial y}{\partial v} \end{vmatrix} $$ 则联合 PDF 为: fU, V(u, v) = fX, Y(x(u, v), y(u, v)) ⋅ |J| 离散的表达情况如下:
变换 (g, h) 是一一映射(即对每个 (u, v),存在唯一 (x, y) 满足u = g(x, y), v = h(x, y),则联合 PMF 为: PU, V(u, v) = PX, Y(x(u, v), y(u, v)
若变换非一一映射(如多个 (x, y) 对应同一 (u, v)),则需累加所有对应 (x, y) 的概率: $$ P_{U,V}(u, v) = \sum_{\substack{(x,y): \\ g(x,y)=u, \, h(x,y)=v}} P_{X,Y}(x, y) $$
二维情况下的矩和协方差
**$k+l 阶联合原点矩 * *:$ E[X^k Y^l] = {-}^{+} {-}^{+} x^k y^l f(x,y) , dx , dy $$
数学期望(均值) E[X] = ∫−∞+∞xfX(x) dx = ∫−∞+∞∫−∞+∞xf(x, y) dx dy
E[Y] = ∫−∞+∞yfY(y) dy = ∫−∞+∞∫−∞+∞yf(x, y) dx dy
协方差(Covariance) Cov(X, Y) = E[(X − E[X])(Y − E[Y])] = E[XY] − E[X]E[Y] 性质:
- 若 X 和 Y 独立,则 Cov(X, Y) = 0(反之不一定成立);
- D(X + Y) = D(X) + D(Y) + 2Cov(X, Y)。
相关系数(Correlation Coefficient): $$ \rho_{X,Y} = \frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}} $$ 性质:ρX, Y ∈ [−1, 1],反映 X 和 Y 的线性相关程度。
概率分布函数(累积分布函数)(CDF)
概率分布函数的定义
概率分布函数(Cumulative Distribution Function, CDF)是描述随机变量取值不超过某数的概率的函数。对于随机变量 X,其CDF定义为: FX(x) = P(X ≤ x) 以上是一维的情况,涉及到多维的情况如下,以二维为例,二维联合分布函数的定义如下
设 (X, Y) 是二维随机变量,对于任意实数$ x$ 和 y,二元函数 FX, Y(x, y) = P(X ≤ x, Y ≤ y) 称为二维随机变量 (X, Y) 的联合分布函数(也简称分布函数 )。
其直观意义:表示随机点 (X, Y) 落在平面区域 {(u, v) ∣ u ≤ x, v ≤ y} 内的概率。
核心性质
单调不减性
若 x1 < x2,则 F(x1) ≤ F(x2) ,也就是F(x)是x的非降函数
即分布函数是单调不减函数,反映随机变量取值越大,“不超过该值” 的概率不会减小。
推论:P(a < X ≤ b) = F(b) − F(a)
利用分布函数计算随机变量 X 落在区间 (a, b] 内的概率,是通过分布函数在区间端点的函数值之差来实现,是连续型与离散型随机变量通用的概率计算方式(结合分布函数定义推导得出 )。
二维的情况如下
- 对 x 单调不减:若 x1 < x2,则 F(x1, y) ≤ F(x2, y);
- 对 y 单调不减:若 y1 < y2,则 F(x, y1) ≤ F(x, y2)。
右连续性 $$ \lim_{x \to x_0^+} F(x) = F(x_0)\\ \textbf{注意:} 对于离散型变量,\text{CDF} 是右连续的阶梯函数 $$ 分布函数 F(x) 在 x0 处的右极限等于 F(x0),体现分布函数的右连续性。
二维的情况如下 $$ \lim_{\substack{x \to x_0^+ \\ y \to y_0^+}} F(x,y) = F(x_0,y_0) $$ 即对每个变量均右连续(离散型表现为阶梯函数的右连续跳跃)。
边界极限 $$ F(-\infty) = \lim_{x \to -\infty} P(X\le x) = 0 \\ F(+\infty) = \lim_{x \to +\infty} P(X\le x) = 1 $$ 二维的情况如下: $$ \begin{align*} F(-\infty, y) &= 0, \quad F(x, -\infty) = 0, \\ F(-\infty, -\infty) &= 0, \quad F(+\infty, +\infty) = 1. \end{align*} $$
概率计算:
单侧概率 P(X > x) = 1 − F(x)
区间概率 P(a < X ≤ b) = F(b) − F(a)
离散型 vs 连续性 CDF
特征 离散型随机变量 连续型随机变量 函数图像 阶梯函数 连续曲线 跳跃点 在取值点处跳跃 无跳跃(绝对连续) 与PMF/PDF关系 F(x) = ∑xi ≤ xpi F(x) = ∫−∞xf(t) dt 单点概率 P(X = x) = F(x) − F(x−) P(X = x) = 0 对于随机向量(X, Y)的联合分布,其中CDF为 FX, Y(x, y) = P(X ≤ x, Y ≤ y)
边缘分布 $$ F_X(x) = \lim_{y \to \infty} F_{X,Y}(x, y) = P(X \le x) \\ F_Y(y) = \lim_{x \to \infty} F_{X,Y}(x, y) = P(Y \le y) $$
独立性随机变量的联合分布性质(若X,Y独立) FX, Y(x, y) = FX(x)FY(y)
概率计算定理 P(X ∈ (a, b]) = F(b) − F(a) 特别地,对连续型变量
P(X ∈ A) = ∫AdF(x)
矩形不等式(二维)
对任意 a < b, c < d,有: P(a < X ≤ b, c < Y ≤ d) = F(b, d) − F(b, c) − F(a, d) + F(a, c) ≥ 0 该式确保概率非负,是联合 CDF 存在的必要条件。
二维情况下的独立性判定
随机变量 X 和 Y 独立的充要条件为
联合 CDF 分解为边缘 CDF 的乘积: FX, Y(x, y) = FX(x) ⋅ FY(y) 对所有 (x, y)
等价条件(与 PDF 关联):
- 若 (X, Y) 是连续型,则 f(x, y) = fX(x)fY(y);
- 若 (X, Y) 是离散型,则 P(X = x, Y = y) = P(X = x)P(Y = y)。
二维 CDF 的概率计算
矩形区域概率 P(a < X ≤ b, c < Y ≤ d) = F(b, d) − F(b, c) − F(a, d) + F(a, c)
单侧概率 P(X > x, Y > y) = 1 − F(x, +∞) − F(+∞, y) + F(x, y)
P(X ≤ x, Y > y) = F(x, +∞) − F(x, y)
连续型与 PDF 的关系 若联合 PDF 存在,则: $$ f_{X,Y}(x,y) = \frac{\partial^2 F_{X,Y}(x,y)}{\partial x \partial y} $$ (在二阶偏导数存在的点成立)。
二维 CDF 的函数分布(通过 CDF 求解)
和的分布:(Z = X + Y) FZ(z) = P(X + Y ≤ z) = ∬x + y ≤ zfX, Y(x, y) dx dy 若 (X,Y) 独立,则: FZ(z) = ∫−∞+∞FX(z − y)fY(y) dy (卷积形式) 离散情况下:
若 X 和 Y 独立,联合 PMF 为 p(x, y) = pX(x)pY(y),则 Z 的 PMF 为: $$ p_Z(z) = \sum_{x=-\infty}^{+\infty} p_X(x)p_Y(z-x) \quad (\text{离散卷积公式}) $$ 那么可以推导出其CDF: $$ F_Z(z) = P(X + Y \leq z) = \sum_{k=-\infty}^z p_Z(k) = \sum_{x=-\infty}^{+\infty} \sum_{y=-\infty}^{z-x} p_X(x)p_Y(y) $$ 若 X, Y 独立,可简化为:$F_Z(z) = \sum_{y=-\infty}^{+\infty} F_X(z - y)p_Y(y)$
商的分布($Z = \frac{X}{Y}$(需考虑 Y = 0 时概率为 0,其实就不应该存在)
连续情况下:
当 Y > 0 时,$\frac{X}{Y} \leq z \iff X \leq zY$;
当 Y < 0 时,$\frac{X}{Y} \leq z \iff X \geq zY$(不等式变号)。
因此,FZ(z) 可表示为: $$ F_Z(z) = \iint_{\substack{x \leq zy \\ y > 0}} f(x,y) \, dx dy + \iint_{\substack{x \geq zy \\ y < 0}} f(x,y) \, dx dy $$
转换为累次积分 FZ(z) = ∫0+∞[∫−∞zyf(x, y) dx]dy + ∫−∞0[∫zy+∞f(x, y) dx]dy
对 z 求导得到密度函数 fZ(z):
利用积分上限函数求导法则,得: fZ(z) = ∫0+∞yf(zy, y) dy + ∫−∞0(−y)f(zy, y) dy = ∫−∞+∞|y|f(zy, y) dy
若 X 和 Y 独立,联合密度 f(x, y) = fX(x)fY(y),则商的 CDF 可写为 FZ(z) = ∫0+∞FX(zy)fY(y) dy + ∫−∞0[1 − FX(zy)]fY(y) dy
离散情况下:
对 Y 的所有非零取值 y,若 x = z ⋅ y 为 X 的可能取值,则累加 p(zy, y),即: $$ p_Z(z) = \sum_{\substack{y: y \neq 0 \\ zy \in X\text{的取值}}} p(zy, y) $$
最大值 / 最小值分布
连续情况下
最大值:Z = max (X, Y) FZ(z) = P(X ≤ z, Y ≤ z) = FX, Y(z, z)
最小值:Z = min (X, Y)(若 (X, Y) 独立)FZ(z) = 1 − [1 − FX(z)][1 − FY(z)]
离散情况下:
最大值:Z = max (X, Y): FZ(z) = P(max (X, Y) ≤ z) = P(X ≤ z, Y ≤ z) = FX, Y(z, z) 若 X, Y 独立,则:FZ(z) = FX(z)FY(z)
最小值:(若 (X, Y) 独立) FZ(z) = P(min (X, Y) ≤ z) = 1 − P(min (X, Y) > z) = 1 − [1 − FX(z)][1 − FY(z)]
一维与二维 CDF 关键差异对比
特性 一维 CDF 二维 CDF 概率区域 区间 ((-, x]) 矩形区域 ((-, x] (-, y]) 独立性判定 无(单变量) (F(x,y)=F_X(x)F_Y(y)) 概率计算 (F(b)-F(a)) 矩形不等式组合
典型分布
标准正态分布 $$ \Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-t^2/2} dt $$ 性质:Φ(−x) = 1 − Φ(x)
指数分布 Exp(λ) F(x) = 1 − e−λx (x ≥ 0) 无记忆性性质:P(X > s + t|X > s) = P(X > t)
离散均匀分布 $$ F(k) = \frac{\lfloor k \rfloor}{n} \quad (k = 1, 2, ..., n) $$
二维均匀分布
设 (X, Y) 在区域 D ⊆ ℝ2 上均匀分布,面积为 SD,则: $$ F(x,y) = \frac{1}{S_D} \times \text{区域 } D \cap \{u \leq x, v \leq y\} \text{ 的面积} $$
二维正态分布
若 (X, Y) ∼ N(μX, μY, σX2, σY2, ρ),有 $$ f(x, y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}} \exp\left\{ -\frac{1}{2(1-\rho^2)} \left[ \left( \frac{x-\mu_X}{\sigma_X} \right)^2 - 2\rho\left( \frac{x-\mu_X}{\sigma_X} \right)\left( \frac{y-\mu_Y}{\sigma_Y} \right) + \left( \frac{y-\mu_Y}{\sigma_Y} \right)^2 \right] \right\} $$ 其中
参数 符号 取值范围 物理意义 X的均值 μX (−∞, +∞) 随机变量X的数学期望,决定分布在x轴上的中心位置。 Y的均值 μY (−∞, +∞) 随机变量Y的数学期望,决定分布在y轴上的中心位置。 X的标准差 σX (0, +∞) 随机变量X的离散程度,σX越大,X的取值越分散。 Y的标准差 σY (0, +∞) 随机变量Y的离散程度,σY越大,Y的取值越分散。 相关系数 ρ [−1, 1] 衡量X和Y的线性相关程度: ρ = 0表示独立; ρ > 0表示正相关; ρ < 0表示负相关。 独立情况ρ = 0 $$ f(x, y) = \frac{1}{2\pi\sigma_X\sigma_Y} \exp\left\{ -\frac{1}{2} \left[ \left( \frac{x-\mu_X}{\sigma_X} \right)^2 + \left( \frac{y-\mu_Y}{\sigma_Y} \right)^2 \right] \right\} $$ 满足:
- 边缘分布:X ∼ N(μX, σX2),Y ∼ N(μY, σY2);
- 独立性:当且仅当 ρ = 0 时,F(x, y) = FX(x)FY(y)。