随机事件和概率部分
题目1:古典概型
一个箱子里装有8个不同编号的红球、6个不同编号的白球和4个不同编号的黑球。现从中无放回地抽取4个球,求满足以下条件的概率:
- 抽取的4个球中,红球、白球、黑球至少各有1个。
- 已知抽取的4个球中至少有2个红球,求恰好有2个红球的概率。
解答:
设 抽取的4个球中,红球、白球、黑球至少各有1个 为事件 X
而,从8 + 6 + 4 = 18个球中无放回抽取4个球的组合数,根据组合数公式$C(n,k)=\frac{n!}{k!(n - k)!}$,可得总样本数为 $$ C(18,4)=\frac{18!}{4!(18 - 4)!}=\frac{18\times17\times16\times15}{4\times3\times2\times1}=3060 $$ 而事件 X 可以分成如下三种情况讨论
“2红1白1黑” 的组合数为 $$ C(8,2)\times C(6,1)\times C(4,1)=\frac{8!}{2!(8 - 2)!}\times\frac{6!}{1!(6 - 1)!}\times\frac{4!}{1!(4 - 1)!}=28\times6\times4 = 672 $$
“1红2白1黑” 的组合数为 $$ C(8,1)\times C(6,2)\times C(4,1)=\frac{8!}{1!(8 - 1)!}\times\frac{6!}{2!(6 - 2)!}\times\frac{4!}{1!(4 - 1)!}=8\times15\times4 = 480 $$
“1红1白2黑” 的组合数为 $$ C(8,1)\times C(6,1)\times C(4,2)=\frac{8!}{1!(8 - 1)!}\times\frac{6!}{1!(6 - 1)!}\times\frac{4!}{2!(4 - 2)!}=8\times6\times6 = 288 $$
所以,事件 X 发生的概率为 $P(X) = \frac{1440}{3060} = \frac{8}{17}$
而设 已知抽取的4个球中至少有2个红球,求恰好有2个红球 为事件Z
而设 抽取的4个球中恰好有2个红球 为事件C
事件 C 可分为如下三种情况讨论
2红2白” 的组合数为 $$ C(8,2)\times C(6,2)=\frac{8!}{2!(8 - 2)!}\times\frac{6!}{2!(6 - 2)!}=28\times15 = 420 $$
“2红2黑” 的组合数为 $$ C(8,2)\times C(4,2)=\frac{8!}{2!(8 - 2)!}\times\frac{4!}{2!(4 - 2)!}=28\times6 = 168 $$
由 1. 中计算可知 “2红1白1黑” 的组合数为672,所以 $$ P(C)=\frac{420 + 168+672}{3060}=\frac{1260}{3060}=\frac{7}{17} $$
而设 抽取的4个球中至少有2个红球 为事件V
事件V可以分为如下三种情况讨论
3个红球” 的组合数为 $$ C(8,3)\times[C(6,1)+C(4,1)+C(6,0)\times C(4,0)]=\frac{8!}{3!(8 - 3)!}\times(6 + 4+1)=56\times11 = 616 $$
“4个红球” 的组合数为 $$ C(8,4)=\frac{8!}{4!(8 - 4)!}=70 $$
而两个红球的组合数在上述已知得到为 1260
所以 $$ P(V) = \frac{1260+616 + 70}{3060}=\frac{1946}{3060}=\frac{973}{1530} $$ 根据条件概率公式,因为A ⊆ B,所以A ∩ B = A,则 $$ P(A|B)=\frac{P(A)}{P(B)}=\frac{\frac{7}{17}}{\frac{973}{1530}}=\frac{7\times1530}{17\times973}=\frac{10710}{16541}\approx0.647 $$
题目2:条件概率与独立性
设事件 A 和 B 满足:$P(A|B) = \frac{2}{3}, \quad P(B|A) = \frac{3}{4}, \quad P(A \cup B) = \frac{11}{12}$
- 求 P(A) 和 P(B);
- 计算 $P(\overline{A} | \overline{B})$,其中 $\overline{A}$ 表示 A 的补事件;
- 证明:若 P(A|B) = P(B|A),则 P(A) = P(B) 或 P(A ∩ B) = 1 − P(A) − P(B)(当 P(A) + P(B) ≠ 1 时)。
解答
计算条件概率 $$ P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{2}{3} \quad \Rightarrow \quad P(A \cap B) = \frac{2}{3}P(B) \tag{1} $$
$$ P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{3}{4} \quad \Rightarrow \quad P(A \cap B) = \frac{3}{4}P(A) \tag{2} $$
联立(1)和(2)式子,得到 $$ \frac{2}{3}P(B) = \frac{3}{4}P(A) \quad \Rightarrow \quad P(A) = \frac{8}{9}P(B) \tag{3} $$ 由加法公式可得 $$ P(A \cup B) = P(A) + P(B) - P(A \cap B) = \frac{11}{12} $$ 代入 (1)(3): $$ \frac{8}{9}P(B) + P(B) - \frac{2}{3}P(B) = \frac{11}{12} $$ 解得 $$ \left(\frac{8}{9} + 1 - \frac{2}{3}\right)P(B) = \frac{11}{12} \quad \Rightarrow \quad \frac{11}{9}P(B) = \frac{11}{12} \quad \Rightarrow \quad P(B) = \frac{3}{4} $$
$$ P(A) = \frac{8}{9}P(B) = \frac{2}{3} $$
计算 $P(\overline{A} | \overline{B})$ 先求 $P(\overline{A} \cap \overline{B})$ $$ P(\overline{A} \cap \overline{B}) = 1 - P(A \cup B) = 1 - \frac{11}{12} = \frac{1}{12} $$ 在求$P(\overline B)$ $$ P(\overline{B}) = 1 - P(B) = 1 - \frac{3}{4} = \frac{1}{4} $$ 由条件概率公式 $$ P(\overline{A} | \overline{B}) = \frac{P(\overline{A} \cap \overline{B})}{P(\overline{B})} = \frac{1/12}{1/4} = \frac{1}{3} $$
对称性证明
若P(A|B) = P(B|A),则 $$ \frac{P(A \cap B)}{P(B)} = \frac{P(A \cap B)}{P(A)} $$ 题目中,P(A) + P(B) ≠ 1,所以P(A ∩ B) = 0 = 1 − P(A) − P(B),不成立,这种情况不能成立
若 P(A ∩ B) ≠ 0,两边同除以 P(A ∩ B) 得: $$ \frac{1}{P(B)} = \frac{1}{P(A)} \quad \Rightarrow \quad P(A) = P(B) $$ 综上,当 P(A) + P(B) ≠ 1 时,必有 P(A) = P(B),得证
题目三:独立性证明
设事件 A 和 B 满足 0 < P(A) < 1,0 < P(B) < 1,且: $$ P(A|B) = 1 - P(\overline{A}|\overline{B}), \quad P(B) = 2P(A) - P(A)^2 $$
- 证明 A 和 B 独立;
- 若 $P(A \cup B) = \frac{7}{9}$,求 P(A);
- 构造反例说明:若去掉 0 < P(A) < 1 和 0 < P(B) < 1 的条件,独立性结论不成立。
解答
独立性证明
先化简 $P(\overline{A}|\overline{B})$: $$ P(\overline{A}|\overline{B}) = \frac{P(\overline{A} \cap \overline{B})}{P(\overline{B})} = \frac{1 - P(A \cup B)}{1 - P(B)} $$ 而题设 $P(A|B) = 1 - P(\overline{A}|\overline{B})$,所以有 $$ \frac{P(A \cap B)}{P(B)} = 1 - \frac{1 - P(A \cup B)}{1 - P(B)} $$ 通分右边: $$ 1 - \frac{1 - P(A) - P(B) + P(A \cap B)}{1 - P(B)} = \frac{(1 - P(B)) - (1 - P(A) - P(B) + P(A \cap B))}{1 - P(B)} = \frac{P(A) - P(A \cap B)}{1 - P(B)} $$ 等式变为: $$ \frac{P(A \cap B)}{P(B)} = \frac{P(A) - P(A \cap B)}{1 - P(B)} $$ 交叉相乘,展开,然后消去同类项,可得 P(A ∩ B) = P(A)P(B) 得证,故 A 和 B 独立
求P(A)
由加法公式可得 P(A ∪ B) = P(A) + P(B) − P(A)P(B) 代入P(B) = 2P(A) − P(A)2: $$ \frac{7}{9} = P(A) + (2P(A) - P(A)^2) - P(A)(2P(A) - P(A)^2) $$ 设P(A)为x,多项式分可解为:$(x - \frac{1}{3})(9x^2 - 24x + 21) = 0$
二次方程判定式 Δ = 242 − 4 × 9 × 21 = 576 − 756 = −180 < 0 故唯一实根为 $x = \frac{1}{3}$,即$ P(A) = $。
构造反例反证
设 P(A) = 0,P(B) = 0,则:
- P(A|B) 无定义(分母为 0),但形式上若规定 0|0 为任意值,此时 P(A ∩ B) = 0 = P(A)P(B),看似独立,但是实际上没有意义。
- 设 P(A) = 1,P(B) = 1,则 P(A|B) = 1,$P(\overline{A}|\overline{B}) = P(\varnothing|\varnothing)$ 无定义,且 P(A ∩ B) = 1 = P(A)P(B),仍看似独立; 但严格来说,当 P(B) = 0 或 1 时,条件概率定义不成立,且独立性定义要求 0 < P(B) < 1,故去掉条件后结论可能因边界情况失效。
题目四:全概率公式和贝叶斯公式
某工厂有三条生产线 A、B、C,分别占总产量的 30%、50% 和 20%。已知各生产线的次品率如下:
- 生产线 A 的次品率为 2%,
- 生产线 B 的次品率为 1%,
- 生产线 C 的次品率为 3%。
现在进行以下两步操作:
- 从总产品中随机抽取一件进行检测,发现是次品。
- 将该次品放回后,再从总产品中随机抽取一件。
问题:
- 求第一次抽到次品的概率。(全概率公式的应用)
- 在第一次抽到次品的条件下,求第二次抽到的产品是合格品的概率。(贝叶斯公式与全概率公式的组合)
解答
先求第一次抽到是次品的概率
设事件:
- D1:第一次抽到次品,
- D2:第二次抽到次品,
- A:产品来自生产线 A,
- B:产品来自生产线 B,
- C:产品来自生产线 C。
根据全概率公式 P(D1) = P(D1|A)P(A) + P(D1|B)P(B) + P(D1|C)P(C) = 0.02 × 0.3 + 0.01 × 0.5 + 0.03 × 0.2 = 0.006 + 0.005 + 0.006 = 0.017
在第一次抽到次品的条件下,求第二次抽到合格品的概率
我们需要计算 P(合格 ∣ D1),即第二次抽到合格品的概率,已知第一次抽到次品。由于第一次抽到的次品被放回,生产线的比例不变
首先,用贝叶斯公式计算在第一次抽到次品的条件下,产品来自各生产线的概率:
$$ P(A | D_1) = \frac{P(D_1 | A) P(A)}{P(D_1)} = \frac{0.02 \times 0.3}{0.017} \approx \frac{0.006}{0.017} \approx 0.3529\\ P(B | D_1) = \frac{P(D_1 | B) P(B)}{P(D_1)} = \frac{0.01 \times 0.5}{0.017} \approx \frac{0.005}{0.017} \approx 0.2941\\ P(C | D_1) = \frac{P(D_1 | C) P(C)}{P(D_1)} = \frac{0.03 \times 0.2}{0.017} \approx \frac{0.006}{0.017} \approx 0.3529 $$
接下来,第二次抽到合格品的概率是在本次情况下的全概率
根据全概率公式
P(合格|D1) = P(合格|A)P(A|D1) + P(合格|B)P(B|D1) + P(合格|C)P(C|D1) 其中 P(合格|A) = 1 − 0.02 = 0.98, P(合格|B) = 1 − 0.01 = 0.99, P(合格|C) = 1 − 0.03 = 0.97 因此
P(合格|D1) ≈ 0.98 × 0.3529 + 0.99 × 0.2941 + 0.97 × 0.3529 ≈ 0.3458 + 0.2912 + 0.3423 ≈ 0.9793
多维随机变量及其分布
题目1
已知二维随机变量(X, Y)的联合概率密度为 $$ { } f(x,y) = \begin{cases} 4xy & 0 \le x \le 1, 0 \le y \le 1 \\0 & 其他\end{cases} $$ 求(X, Y)的联合分布函数
解答
二维随机变量 (X, Y) 的联合分布函数定义为: F(x, y) = P(X ≤ x, Y ≤ y) = ∫−∞x∫−∞yf(u, v) dv du 需根据 x 和 y 的取值范围分段讨论,共分为以下 5 种情况
当 x < 0 或 y < 0 时
若 x < 0,则积分下限 u 超出 f(u, v) 的非零区域(u ≥ 0),此时:
F(x, y) = ∫−∞x < 0∫−∞y0 dv du = 0若 y < 0,同理,v 超出非零区域,结果仍为:
F(x, y) = 0 结论:
F(x, y) = 0, x < 0 或 y < 0
当 0 ≤ x < 1 且 0 ≤ y < 1 时
此时 u 和 v 均在 f(u, v) 的非零区域内,积分范围为:
u ∈ [0, x], v ∈ [0, y]计算二重积分:
F(x, y) = ∫0x∫0y4uv dv du- 先对 v 积分:
$$ \int_{0}^{y} 4uv \, dv = 4u \int_{0}^{y} v \, dv = 4u \cdot \frac{v^2}{2} \bigg|_{0}^{y} = 4u \cdot \frac{y^2}{2} = 2uy^2 $$ - 再对 (u) 积分:
$$ \int_{0}^{x} 2uy^2 \, du = 2y^2 \int_{0}^{x} u \, du = 2y^2 \cdot \frac{u^2}{2} \bigg|_{0}^{x} = 2y^2 \cdot \frac{x^2}{2} = x^2y^2 $$ 结论: F(x, y) = x2y2, 0 ≤ x < 1, 0 ≤ y < 1
- 先对 v 积分:
当 x ≥ 1 且 0 ≤ y < 1 时
u 超出非零区域的上限(u ≤ 1),故 u 的积分范围为 [0, 1],v 仍为 [0, y]:
F(x, y) = ∫01∫0y4uv dv du- 对 (v) 积分(同情况 2): ∫0y4uv dv = 2uy2
- 对 (u) 积分: $$ \int_{0}^{1} 2uy^2 \, du = 2y^2 \cdot \frac{u^2}{2} \bigg|_{0}^{1} = 2y^2 \cdot \frac{1}{2} = y^2 $$ 结论: F(x, y) = y2, x ≥ 1, 0 ≤ y < 1
当 0 ≤ x < 1 且 y ≥ 1 时
v 超出非零区域的上限(v ≤ 1),故 v 的积分范围为 [0, 1],u 为 [0, x]:
F(x, y) = ∫0x∫014uv dv du- 对 v 积分:
$$ \int_{0}^{1} 4uv \, dv = 4u \cdot \frac{v^2}{2} \bigg|_{0}^{1} = 4u \cdot \frac{1}{2} = 2u $$ - 对 u 积分:
$$ \int_{0}^{x} 2u \, du = 2 \cdot \frac{u^2}{2} \bigg|_{0}^{x} = x^2 $$ 结论:
F(x, y) = x2, 0 ≤ x < 1, y ≥ 1
- 对 v 积分:
当 x ≥ 1 且 y ≥ 1 时
u 和 v 均覆盖整个非零区域,积分范围为:
u ∈ [0, 1], v ∈ [0, 1]计算二重积分:
F(x, y) = ∫01∫014uv dv du对 (v) 积分:
∫014uv dv = 2u对 (u) 积分:
∫012u du = 1 结论:
F(x, y) = 1, x ≥ 1, y ≥ 1
最终联合分布函数
综合以上 5 种情况,(X, Y)
的联合分布函数为:
$$
F(x,y) = \begin{cases}
0, & x < 0 \ 或 \ y < 0 \\
x^2y^2, & 0 \leq x < 1, \ 0 \leq y < 1 \\
y^2, & x \geq 1, \ 0 \leq y < 1 \\
x^2, & 0 \leq x < 1, \ y \geq 1 \\
1, & x \geq 1, \ y \geq 1
\end{cases}
$$
题目2
设二维随机变量 (X, Y) 的联合概率密度函数为: $$ f(x, y) = \begin{cases} 6e^{-2x - 3y}, & x \geq 0, y \geq 0 \\ 0, & \text{其他} \end{cases} $$
- 求边缘概率密度函数 fX(x) 和 fY(y)。
- 判断 X 和 Y 是否独立,并说明理由。
解答:
求边缘密度函数
fX(x) :对 y 积分,区间 0 到 +∞ fX(x) = ∫0∞6e−2x − 3y dy = 6e−2x∫0∞e−3y dy 令 u = −3y,则 du = −3dy,积分变为: $$ 6e^{-2x} \left[ -\frac{1}{3}e^{-3y} \right]_{0}^{\infty} = 6e^{-2x} \cdot \frac{1}{3} = 2e^{-2x} \quad (x \geq 0) $$ 因此 $$ f_X(x) = \begin{cases} 2e^{-2x}, & x \geq 0 \\ 0, & \text{其他} \end{cases} $$ fY(y) :对 x 积分,区间 0 到 +∞
fY(y) = ∫0∞6e−2x − 3y dx = 6e−3y∫0∞e−2x dx
令 $u = -2x$,则 $du = -2dx$,积分变为:
$$ 6e^{-3y} \left[ -\frac{1}{2}e^{-2x} \right]_{0}^{\infty} = 6e^{-3y} \cdot \frac{1}{2} = 3e^{-3y} \quad (y \geq 0) $$ 因此 $$ f_Y(y) = \begin{cases} 3e^{-3y}, & y \geq 0 \\ 0, & \text{其他} \end{cases} $$
独立性判断
若 X 和 Y 独立,则需满足 f(x, y) = fX(x) ⋅ fY(y)。
计算乘积 fX(x) ⋅ fY(y) = (2e−2x) ⋅ (3e−3y) = 6e−2x − 3y = f(x, y) 因此,X和Y独立
题目3:
设二维随机变量 (X, Y) 的联合分布律如下:
X ∖ Y | 0 | 1 |
---|---|---|
0 | 0.2 | 0.3 |
1 | 0.4 | 0.1 |
- 求 X 和 Y 的边缘分布律。
- 判断 X 和 Y 是否独立,并说明理由。
解答
P(X = 0) = 0.2 + 0.3 = 0.5
P(X = 1) = 0.4 + 0.1 = 0.5
即$X \sim \begin{pmatrix} 0 & 1 \\ 0.5 & 0.5 \end{pmatrix}$
P(Y = 0) = 0.2 + 0.4 = 0.6, P(Y = 1) = 0.3 + 0.1 = 0.4 即 $Y \sim \begin{pmatrix} 0 & 1 \\ 0.6 & 0.4 \end{pmatrix}$
独立性判断
若 X 和 Y 独立,则对所有 x, y 需满足 P(X = x, Y = y) = P(X = x) ⋅ P(Y = y)。
然而其中 P(X = 0, Y = 0) = 0.2 但 P(X = 0) ⋅ P(Y = 0) = 0.5 ⋅ 0.6 = 0.3 ≠ 0.2 因此,X 和 Y 不独立
题目4
设 X 和 Y 是相互独立的随机变量,且均服从标准正态分布 N(0, 1)。定义 Z = X + Y,求 Z 的概率密度函数 fZ(z)。
解答:
属于是和的分布
卷积公式
由于 X 和 Y 独立,Z = X + Y 的概率密度函数为卷积: fZ(z) = ∫−∞∞fX(x) ⋅ fY(z − x) dx 其中 $f_X(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$,$f_Y(y) = \frac{1}{\sqrt{2\pi}}e^{-\frac{y^2}{2}}$。
代入并化简
代入 y = z − x: $$ f_Z(z) = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \cdot \frac{1}{\sqrt{2\pi}}e^{-\frac{(z - x)^2}{2}} \, dx $$ 合并指数项: $$ f_Z(z) = \frac{1}{2\pi} \int_{-\infty}^{\infty} e^{-\frac{x^2 + (z - x)^2}{2}} \, dx $$ 展开并整理指数部分: $$ x^2 + (z - x)^2 = 2x^2 - 2zx + z^2 = 2\left(x - \frac{z}{2}\right)^2 + \frac{z^2}{2} $$ 因此: $$ f_Z(z) = \frac{1}{2\pi} e^{-\frac{z^2}{4}} \int_{-\infty}^{\infty} e^{-\left(x - \frac{z}{2}\right)^2} \, dx $$
高斯积分
令 $u = x - \frac{z}{2}$,则积分变为标准高斯积分:
$$ \int_{-\infty}^{\infty} e^{-u^2} \, du = \sqrt{\pi} $$ 代入得: $$ f_Z(z) = \frac{1}{2\pi} e^{-\frac{z^2}{4}} \cdot \sqrt{\pi} = \frac{1}{\sqrt{4\pi}} e^{-\frac{z^2}{4}} $$ 即 Z ∼ N(0, 2)。
抽样分布与样本统计量部分
题目1
设总体 $ X B(1,p) $,其中 $ p $ 是未知参数,$ (X_1,X_2,,X_5) $ 是总体 $ X $ 的样本, 1. 写出样本空间和样本的联合概率分布; 2. 指出 $ X_1 + X_3,{X_1,X_2,,X_5},,(X_5 - X_1)^2 $ 中哪些是统计量,哪些不是统计量; 3. 若样本观测值为 $ 0,1,0,1,1 $,求样本均值与样本方差。
解答:
由于每个Xi只能取0或1,样本空间为所有可能的5维0-1向量: S = {(x1, x2, x3, x4, x5)|xi ∈ {0, 1}, i = 1, ⋯, 5} 共有25 = 32个样本点。
由于样本独立同分布,联合概率分布为: $$ P(X_1=x_1,\cdots,X_5=x_5) = \prod_{i=1}^5 P(X_i=x_i) = p^{\sum_{i=1}^5 x_i}(1-p)^{5-\sum_{i=1}^5 x_i} $$ 其中xi ∈ {0, 1}。
统计量都是已知量,不能包含未知量
- X1 + X3:
- 仅依赖样本值,不依赖p
- 是统计量
- min {X1, ⋯, X5}:
- 只与样本值有关
- 是统计量
- $\frac{X_1}{p}$:
- 含有未知参数p
- 不是统计量
- (X5 − X1)2:
- 仅依赖样本值
- 是统计量
样本观测值为(0, 1, 0, 1, 1),样本的均值为 $$ \bar{x} = \frac{1}{5}\sum_{i=1}^5 x_i = \frac{0+1+0+1+1}{5} = \frac{3}{5} = 0.6 $$ 样本的方差为 $$ s^2 = \frac{1}{5-1}\left(\sum x_i^2 - 5\bar{x}^2\right) = \frac{1}{4}\left(3 - 5 \times 0.36\right) = \frac{1.2}{4} = 0.3 $$
问题2:
设总体 X ∼ N(μ, σ2),从中抽取样本 X1, X2。
- 写出 (X1, X2) 的联合概率密度函数;
- 求样本均值 $\overline{X} = \frac{X_1 + X_2}{2}$ 的分布;
- 计算 $E(\overline{X})$ 和 $D(\overline{X})$;
- 若 μ = 1, σ2 = 4,求 $P(\overline{X} > 1.5)$。
解答:
联合概率密度函数为 $$ f(x_1,x_2) = \prod_{i=1}^2 \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} $$
样本均值的分布为 $$ \overline{X} \sim N\left(\mu, \frac{\sigma^2}{2}\right) $$
$E(\overline{X})$为 $$ E(\overline{X}) = E(\frac{1}{n} \sum_{i = 1}^n X_i) = \frac{1}{n}EX_i = EX = \mu $$ $D(\overline{X})$为 $$ D(\overline{X}) = D(\frac{1}{n} \sum_{i = 1}^n X_i) = \frac{1}{n^2}D(\sum_{i = 1}^n X_i) = \frac{1}{n^2}\sum_{i = 1}^n DX_i = \frac{1}{n^2} .n\sigma^2 = \frac{\sigma^2}{n} $$
当 μ = 1, σ2 = 4 时: $$ P(\overline{X} > 1.5) = 1 - \Phi\left(\frac{1.5-1}{\sqrt{2}}\right) \approx 1 - \Phi(0.3535) \approx 0.3618 $$
问题3:
设总体 X ∼ P(λ),从中抽取样本 X1, X2, X3。
- 求样本总和 T = X1 + X2 + X3 的分布;
- 证明 $\overline{X}$ 是 λ 的无偏估计;
- 计算 $D(\overline{X})$;
- 当 λ = 2 时,求 $P(\overline{X} \leq 1.5)$。
解答:
因为 X ∼ P(λ),所以有 $$ P(X = k) = \frac{\lambda ^k e^{- \lambda}}{k!} $$ 容易得到,样本的总和分布为 T ∼ P(3λ)
无偏性证明 $$ E(\overline X) = E\left(\frac{T}{3}\right) = \frac{3\lambda}{3} = \lambda $$
方差计算 $$ D(\overline{X}) = \frac{D(X)}{n} = \frac{\lambda}{3} $$
当 λ = 2 时,T ∼ P(6): $$ P(\overline{X} \leq 1.5) = P(T \leq 4.5) = P(T \leq 4) \approx 0.2851 $$
大数定律
题目1:
设 X1, X2, …, Xn 为独立同分布的随机变量序列,E(Xi) = μ,D(Xi) = σ2 < ∞。则下列叙述正确的是:
A. $\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| \geq \epsilon\right) = 1$
B. $\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \epsilon\right) = 0$
C. $\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| \geq \epsilon\right) = 0$
D. $\lim_{n \to \infty} \frac{1}{n}\sum_{i=1}^n X_i = \mu$ 几乎必然成立
正确答案:C
详细解析:
切比雪夫大数定律的数学表述: $$ \lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| \geq \epsilon\right) = 0 $$ 这称为依概率收敛,对应选项C。
错误选项分析:
- A:与定律结论相反
- B:概率收敛到0应为收敛到1
- D:描述的是强大数定律,需要更强条件
题目2:
设 X1, X2, …, X100 为独立同分布的泊松随机变量,Xi ∼ P(λ),则 $\sum_{i=1}^{100} X_i$ 的近似分布是:A
A. N(100λ, 100λ)
B. N(λ, λ)
C. P(100λ)
D. N(λ, λ/100)
泊松分布性质:
- E(Xi) = λ, D(Xi) = λ
- 具有可加性:∑Xi ∼ P(nλ)
中心极限定理应用: 当 n = 100 较大时: $$ \sum_{i=1}^{100} X_i \approx N(n\lambda, n\lambda) = N(100\lambda, 100\lambda) $$
错误选项分析:
- B:描述的是单个Xi的近似
- C:精确分布非近似结果
- D:混淆了样本均值的分布
问题3
设 X1, …, Xn 独立同分布,E(Xi) = 1, D(Xi) = 4。当 n 充分大时,P(X̄ ≤ 1.2) 的近似值为:
A. $\Phi(0.1\sqrt{n})$
B. $\Phi(0.2\sqrt{n})$
C. $1 - \Phi(0.1\sqrt{n})$
D. $\Phi(0.4\sqrt{n})$
详细解析:
标准化样本均值: $$ \bar{X} \approx N\left(1, \frac{4}{n}\right) \Rightarrow \frac{\bar{X}-1}{2/\sqrt{n}} \sim N(0,1) $$
概率计算: $$ P(\bar{X} \leq 1.2) = P\left(\frac{\bar{X}-1}{2/\sqrt{n}} \leq \frac{0.2}{2/\sqrt{n}}\right) \approx \Phi(0.1\sqrt{n}) $$
错误选项分析:
- B:系数错误(应为0.1)
- C:方向反了
- D:方差系数错误
参数估计部分
点估计
问题1
tag:矩估计,最大似然估计,无偏性,有效性
设 X1, X2, …, Xn 是来自总体 X 的简单随机样本,总体概率密度函数为: $$ f(x;\theta) = \begin{cases} \theta x^{\theta-1}, & 0 < x < 1 \\ 0, & \text{其他} \end{cases} $$ 其中 θ > 0 为未知参数。
- 求 θ 的矩估计量 θ̂1;
- 求 θ 的最大似然估计量 θ̂2;
- 验证 θ̂1 和 θ̂2 的无偏性,并比较它们的有效性。
解答
矩估计:
计算总体矩 $$ \begin{align*} E(X) & = \int_0^1 x \cdot \theta x^{\theta-1} \, dx \\ & = \int_0^1 \theta x^{\theta} \, dx \\ & = \theta \int_0^1 x^{\theta} \, dx \\ & = \theta \cdot \left. \frac{x^{\theta + 1}}{\theta + 1} \right|_0^1 \\ & = \theta \cdot \left( \frac{1^{\theta + 1}}{\theta + 1} - \frac{0^{\theta + 1}}{\theta + 1} \right) \\ & = \theta \cdot \frac{1}{\theta + 1} \\ & = \frac{\theta}{\theta + 1} \end{align*} $$
令样本矩等于总体矩: $$ \bar{X} = \frac{\theta}{\theta+1} $$
解得 $$ \hat{\theta}_1 = \frac{\bar{X}}{1-\bar{X}} $$
最大似然估计量
似然函数 $$ L(\theta) = \prod_{i=1}^n \theta X_i^{\theta-1} = \theta^n \left(\prod_{i=1}^n X_i\right)^{\theta-1} $$
取对数 $$ \ln L(\theta) = n\ln\theta + (\theta-1)\sum_{i=1}^n \ln X_i $$
两边求导得到 $$ \frac{d}{d\theta}\ln L(\theta) = \frac{n}{\theta} + \sum_{i=1}^n \ln X_i = 0 $$
解得最大似然估计量θ̂2为 $$ \hat{\theta}_2 = -\frac{n}{\sum_{i=1}^n \ln X_i} $$
无偏性与有效性
- 矩估计量的无偏性
- 计算$E(\hat{\theta}_1) = E\left(\frac{\bar{X}}{1-\bar{X}}\right)$
- 由于 $\bar{X} = \frac{1}{n}\sum X_i$,且 Xi ∼ f(x; θ)
- 通过泰勒展开或直接计算可得 $E(\hat{\theta}_1) \approx \theta + \frac{\theta+1}{n}$(当 n 较大时)
- 结论:θ̂1 是渐近无偏的,但对有限样本是有偏的
- 最大似然估计的无偏性:
- 令 Yi = −ln Xi,则 Yi 服从指数分布 Exp(θ)
- θ̂2 = n/∑Yi 是倒指数分布参数的估计
- 已知 $E(\hat{\theta}_2) = \frac{n}{n-1}\theta \neq \theta$(当 n > 1)
- 结论:θ̂2 是有偏估计
- 有效性比较:
- 矩估计量的无偏性
问题2:
设 X1, X2, …, Xn 是来自泊松分布 P(λ) 的简单随机样本,其中 λ > 0 为未知参数。
- (矩估计) 求 λ 的矩估计量 λ̂1;
- (最大似然估计) 求 λ 的最大似然估计量 λ̂2;
- (无偏性与有效性) 设 $T = \frac{1}{n}\sum_{i=1}^n X_i^2 - \bar{X}$,证明 T 是 λ2 的无偏估计,并讨论其有效性。
解答:
- 矩估计:
- X ∼ P(λ),所以 $X = \frac{e^{-\lambda}\lambda^{X}}{X!}$
- 由于是泊松分布,所以 E(X) = λ,直接得 λ̂1 = X̄
- 最大似然估计:
- 似然函数:$L(\lambda) = \prod_{i=1}^n \frac{e^{-\lambda}\lambda^{X_i}}{X_i!}$
- 对数似然函数:$\ln L(\lambda) = -n\lambda + \ln\lambda \sum_{i=1}^n X_i - \sum_{i=1}^n \ln(X_i!)$
- 求导得:$\frac{d}{d\lambda}\ln L(\lambda) = -n + \frac{1}{\lambda}\sum_{i=1}^n X_i = 0$
- 解得:λ̂2 = X̄
- 无偏性与有效性:
- 无偏性证明:
- 已知泊松分布 E(Xi) = λ, Var(Xi) = λ
- E(Xi2) = Var(Xi) + [E(Xi)]2 = λ + λ2
- $E(T) = \frac{1}{n}\sum E(X_i^2) - E(\bar{X}) = (\lambda + \lambda^2) - \lambda = \lambda^2$
- 结论:T 是 λ2 的无偏估计
- 有效性分析:
- 计算 $\text{Var}(T) = \text{Var}\left(\frac{1}{n}\sum X_i^2 - \bar{X}\right)$
- 展开得 $\text{Var}(T) = \frac{1}{n^2}\sum\text{Var}(X_i^2) + \text{Var}(\bar{X}) - \frac{2}{n}\text{Cov}(\sum X_i^2, \bar{X})$
- 对于泊松分布,Var(Xi2) = E(Xi4) − [E(Xi2)]2 = λ + 7λ2 + 6λ3 + λ4 − (λ + λ2)2
- 计算得 $\text{Var}(T) = \frac{4\lambda^3 + 6\lambda^2 + \lambda}{n} + O(\frac{1}{n^2})$
- 与 C-R 下界比较(需先求 λ2 的 Fisher 信息)
- 结论:T 是 λ2 的有效估计(达到 C-R 下界)
- 无偏性证明:
问题3
设 X1, X2, …, Xn 是来自总体 X 的简单随机样本,总体服从参数为 θ 的指数分布,其概率密度函数为: $$ f(x;\theta) = \begin{cases} \theta e^{-\theta x}, & x > 0 \\ 0, & x \leq 0 \end{cases} $$ 其中 θ > 0 为未知参数。
考虑以下两个估计量: 1. $\hat{\theta}_1 = \frac{1}{\bar{X}}$,其中 $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$ 2. $\hat{\theta}_2 = \frac{n-1}{\sum_{i=1}^n X_i}$
请完成: 1. 验证 θ̂1 和 θ̂2 的无偏性; 2. 比较两个估计量的有效性; 3. 讨论哪个估计量更优,并说明理由。
解答:
无偏性验证
对于θ̂1:
已知$\sum_{i=1}^n X_i \sim Gamma(n, \theta)$,其概率密度函数为: $$ f_Y(y) = \frac{\theta^n y^{n-1} e^{-\theta y}}{\Gamma(n)}, \quad y > 0 $$
计算 $E\left[\frac{1}{\bar{X}}\right] = E\left[\frac{n}{\sum X_i}\right] = n E\left[\frac{1}{Y}\right]$,其中 Y = ∑Xi
计算积分 $$ E\left[\frac{1}{Y}\right] = \int_0^\infty \frac{1}{y} \cdot \frac{\theta^n y^{n-1} e^{-\theta y}}{\Gamma(n)} dy = \frac{\theta^n}{\Gamma(n)} \int_0^\infty y^{n-2} e^{-\theta y} dy $$
利用 Gamma 积分: $$ \int_0^\infty y^{n-2} e^{-\theta y} dy = \frac{\Gamma(n-1)}{\theta^{n-1}} \quad (n > 1) $$
因此: $$ E\left[\frac{1}{Y}\right] = \frac{\theta^n}{\Gamma(n)} \cdot \frac{\Gamma(n-1)}{\theta^{n-1}} = \frac{\theta}{n-1} $$
最终: $$ E[\hat{\theta}_1] = n \cdot \frac{\theta}{n-1} = \frac{n}{n-1}\theta \neq \theta $$
结论:θ̂1 是有偏估计。
对于θ2:
类似地计算: $$ E[\hat{\theta}_2] = (n-1) E\left[\frac{1}{Y}\right] = (n-1) \cdot \frac{\theta}{n-1} = \theta $$
结论:θ̂2 是无偏估计。
有效性比较
计算方差:
对于 θ̂1: - 计算 $E\left[\frac{1}{Y^2}\right]$: $$ E\left[\frac{1}{Y^2}\right] = \int_0^\infty \frac{1}{y^2} \cdot \frac{\theta^n y^{n-1} e^{-\theta y}}{\Gamma(n)} dy = \frac{\theta^n}{\Gamma(n)} \int_0^\infty y^{n-3} e^{-\theta y} dy = \frac{\theta^n}{\Gamma(n)} \cdot \frac{\Gamma(n-2)}{\theta^{n-2}} = \frac{\theta^2}{(n-1)(n-2)} \quad (n > 2) $$ - 因此: $$ \text{Var}\left(\frac{1}{Y}\right) = E\left[\frac{1}{Y^2}\right] - \left(E\left[\frac{1}{Y}\right]\right)^2 = \frac{\theta^2}{(n-1)(n-2)} - \frac{\theta^2}{(n-1)^2} = \frac{\theta^2}{(n-1)^2(n-2)} $$ - 最终: $$\text{Var}(\hat{\theta}_1) = n^2 \cdot \text{Var}\left(\frac{1}{Y}\right) = \frac{n^2 \theta^2}{(n-1)^2(n-2)}$$
对于 θ̂2:
$$ \text{Var}(\hat{\theta}_2) = (n-1)^2 \cdot \text{Var}\left(\frac{1}{Y}\right) = \frac{(n-1)^2 \theta^2}{(n-1)^2(n-2)} = \frac{\theta^2}{n-2} $$
比较方差:
- 当 n > 2 时: $$ \text{Var}(\hat{\theta}_2) = (n-1)^2 \cdot \text{Var}\left(\frac{1}{Y}\right) = \frac{(n-1)^2 \theta^2}{(n-1)^2(n-2)} = \frac{\theta^2}{n-2} $$
结论
无偏性:θ̂2 是无偏估计,θ̂1 是有偏估计;
有效性:θ̂2 的方差更小;
最优估计:θ̂2 在无偏性和有效性两方面都优于 θ̂1,因此是更优的估计量。
补充说明:
- 虽然 θ̂1 是有偏的,但当 n → ∞ 时,E[θ̂1] → θ,称为渐近无偏;
- θ̂2 达到了 Cramer-Rao 下界,是最小方差无偏估计 (UMVUE)。
区间估计
题目1
设某厂生产的零件长度服从正态分布 N(μ, σ2),其中 σ2 未知。现随机抽取16个零件,测得样本均值 x̄ = 20.5 cm,样本标准差 s = 1.2 cm。求:
- 总体均值 μ 的95%置信区间;
- 总体方差 σ2 的90%置信区间。
解答:
总体均值 μ 的95%置信区间
确定统计量
当总体方差未知的时候,使用t统计量 $$ T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1) $$
确定置信水平
置信水平 1 − α = 95%,故 α = 0.05
查表
自由度 df = n − 1 = 15,查 t 分布表得: tα/2(15) = t0.025(15) = 2.131
计算置信区间
置信区间公式 $$ \left[ \bar{x} - t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}}, \bar{x} + t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}} \right] $$
代入数值 $$ \left[ 20.5 - 2.131 \times \frac{1.2}{\sqrt{16}}, 20.5 + 2.131 \times \frac{1.2}{\sqrt{16}} \right] = [19.86, 21.14] $$
结论
σ2 的90%置信区间为 [0.864, 2.975] cm2
总体方差 σ2 的90%置信区间
确定统计量
总体均值已知,估计总体方差 $$ \chi^2 = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) $$
确定置信水平
置信水平 1 − α = 90%,故 α = 0.10
- 查表 自由度 df = n − 1 = 15,查 χ2 分布表得: $$ \chi^2_{1-\alpha/2}(15) = \chi^2_{0.95}(15) = 7.261 \\ \chi^2_{\alpha/2}(15) = \chi^2_{0.05}(15) = 24.996 $$
计算置信区间 $$ \left[ \frac{(n-1)s^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}(n-1)} \right] $$
估计总体方差,总体均值已知未知都是这个式子
代入数值: $$ \left[ \frac{15 \times 1.2^2}{24.996}, \frac{15 \times 1.2^2}{7.261} \right] = \left[ \frac{21.6}{24.996}, \frac{21.6}{7.261} \right] = [0.864, 2.975] $$
结论
σ2 的90%置信区间为 [0.864, 2.975] cm2