概率论与数理统计部分习题选做

随机事件和概率部分

题目1：古典概型

一个箱子里装有8个不同编号的红球、6个不同编号的白球和4个不同编号的黑球。现从中无放回地抽取4个球，求满足以下条件的概率：

抽取的4个球中，红球、白球、黑球至少各有1个。
已知抽取的4个球中至少有2个红球，求恰好有2个红球的概率。

解答：

设抽取的4个球中，红球、白球、黑球至少各有1个为事件 X

而，从8 + 6 + 4 = 18个球中无放回抽取4个球的组合数，根据组合数公式$C(n,k)=\frac{n!}{k!(n - k)!}$，可得总样本数为 $$ C(18,4)=\frac{18!}{4!(18 - 4)!}=\frac{18\times17\times16\times15}{4\times3\times2\times1}=3060 $$ 而事件 X 可以分成如下三种情况讨论
- “2红1白1黑” 的组合数为 $$ C(8,2)\times C(6,1)\times C(4,1)=\frac{8!}{2!(8 - 2)!}\times\frac{6!}{1!(6 - 1)!}\times\frac{4!}{1!(4 - 1)!}=28\times6\times4 = 672 $$
- “1红2白1黑” 的组合数为 $$ C(8,1)\times C(6,2)\times C(4,1)=\frac{8!}{1!(8 - 1)!}\times\frac{6!}{2!(6 - 2)!}\times\frac{4!}{1!(4 - 1)!}=8\times15\times4 = 480 $$
- “1红1白2黑” 的组合数为 $$ C(8,1)\times C(6,1)\times C(4,2)=\frac{8!}{1!(8 - 1)!}\times\frac{6!}{1!(6 - 1)!}\times\frac{4!}{2!(4 - 2)!}=8\times6\times6 = 288 $$
所以，事件 X 发生的概率为 $P(X) = \frac{1440}{3060} = \frac{8}{17}$
而设已知抽取的4个球中至少有2个红球，求恰好有2个红球为事件Z

而设抽取的4个球中恰好有2个红球为事件C

事件 C 可分为如下三种情况讨论
1. 2红2白” 的组合数为 $$ C(8,2)\times C(6,2)=\frac{8!}{2!(8 - 2)!}\times\frac{6!}{2!(6 - 2)!}=28\times15 = 420 $$
2. “2红2黑” 的组合数为 $$ C(8,2)\times C(4,2)=\frac{8!}{2!(8 - 2)!}\times\frac{4!}{2!(4 - 2)!}=28\times6 = 168 $$
3. 由 1. 中计算可知 “2红1白1黑” 的组合数为672，所以 $$ P(C)=\frac{420 + 168+672}{3060}=\frac{1260}{3060}=\frac{7}{17} $$
而设抽取的4个球中至少有2个红球为事件V

事件V可以分为如下三种情况讨论
1. 3个红球” 的组合数为 $$ C(8,3)\times[C(6,1)+C(4,1)+C(6,0)\times C(4,0)]=\frac{8!}{3!(8 - 3)!}\times(6 + 4+1)=56\times11 = 616 $$
2. “4个红球” 的组合数为 $$ C(8,4)=\frac{8!}{4!(8 - 4)!}=70 $$
3. 而两个红球的组合数在上述已知得到为 1260
所以 $$ P(V) = \frac{1260+616 + 70}{3060}=\frac{1946}{3060}=\frac{973}{1530} $$ 根据条件概率公式，因为A ⊆ B，所以A ∩ B = A，则 $$ P(A|B)=\frac{P(A)}{P(B)}=\frac{\frac{7}{17}}{\frac{973}{1530}}=\frac{7\times1530}{17\times973}=\frac{10710}{16541}\approx0.647 $$

题目2：条件概率与独立性

设事件 A 和 B 满足：$P(A|B) = \frac{2}{3}, \quad P(B|A) = \frac{3}{4}, \quad P(A \cup B) = \frac{11}{12}$

求 P(A) 和 P(B)；
计算 $P(\overline{A} | \overline{B})$，其中 $\overline{A}$ 表示 A 的补事件；
证明：若 P(A|B) = P(B|A)，则 P(A) = P(B) 或 P(A ∩ B) = 1 − P(A) − P(B)（当 P(A) + P(B) ≠ 1 时）。

解答

计算条件概率 $$ P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{2}{3} \quad \Rightarrow \quad P(A \cap B) = \frac{2}{3}P(B) \tag{1} $$

$$ P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{3}{4} \quad \Rightarrow \quad P(A \cap B) = \frac{3}{4}P(A) \tag{2} $$

联立(1)和(2)式子，得到 $$ \frac{2}{3}P(B) = \frac{3}{4}P(A) \quad \Rightarrow \quad P(A) = \frac{8}{9}P(B) \tag{3} $$ 由加法公式可得 $$ P(A \cup B) = P(A) + P(B) - P(A \cap B) = \frac{11}{12} $$ 代入 (1)(3)： $$ \frac{8}{9}P(B) + P(B) - \frac{2}{3}P(B) = \frac{11}{12} $$ 解得 $$ \left(\frac{8}{9} + 1 - \frac{2}{3}\right)P(B) = \frac{11}{12} \quad \Rightarrow \quad \frac{11}{9}P(B) = \frac{11}{12} \quad \Rightarrow \quad P(B) = \frac{3}{4} $$

$$ P(A) = \frac{8}{9}P(B) = \frac{2}{3} $$
计算 $P(\overline{A} | \overline{B})$ 先求 $P(\overline{A} \cap \overline{B})$ $$ P(\overline{A} \cap \overline{B}) = 1 - P(A \cup B) = 1 - \frac{11}{12} = \frac{1}{12} $$ 在求$P(\overline B)$ $$ P(\overline{B}) = 1 - P(B) = 1 - \frac{3}{4} = \frac{1}{4} $$ 由条件概率公式 $$ P(\overline{A} | \overline{B}) = \frac{P(\overline{A} \cap \overline{B})}{P(\overline{B})} = \frac{1/12}{1/4} = \frac{1}{3} $$
对称性证明

若P(A|B) = P(B|A)，则 $$ \frac{P(A \cap B)}{P(B)} = \frac{P(A \cap B)}{P(A)} $$ 题目中，P(A) + P(B) ≠ 1，所以P(A ∩ B) = 0 = 1 − P(A) − P(B)，不成立，这种情况不能成立

若 P(A ∩ B) ≠ 0，两边同除以 P(A ∩ B) 得: $$ \frac{1}{P(B)} = \frac{1}{P(A)} \quad \Rightarrow \quad P(A) = P(B) $$ 综上，当 P(A) + P(B) ≠ 1 时，必有 P(A) = P(B)，得证

题目三：独立性证明

设事件 A 和 B 满足 0 < P(A) < 1，0 < P(B) < 1，且： $$ P(A|B) = 1 - P(\overline{A}|\overline{B}), \quad P(B) = 2P(A) - P(A)^2 $$

证明 A 和 B 独立；
若 $P(A \cup B) = \frac{7}{9}$，求 P(A)；
构造反例说明：若去掉 0 < P(A) < 1 和 0 < P(B) < 1 的条件，独立性结论不成立。

解答

独立性证明

先化简 $P(\overline{A}|\overline{B})$： $$ P(\overline{A}|\overline{B}) = \frac{P(\overline{A} \cap \overline{B})}{P(\overline{B})} = \frac{1 - P(A \cup B)}{1 - P(B)} $$ 而题设 $P(A|B) = 1 - P(\overline{A}|\overline{B})$，所以有 $$ \frac{P(A \cap B)}{P(B)} = 1 - \frac{1 - P(A \cup B)}{1 - P(B)} $$ 通分右边： $$ 1 - \frac{1 - P(A) - P(B) + P(A \cap B)}{1 - P(B)} = \frac{(1 - P(B)) - (1 - P(A) - P(B) + P(A \cap B))}{1 - P(B)} = \frac{P(A) - P(A \cap B)}{1 - P(B)} $$ 等式变为： $$ \frac{P(A \cap B)}{P(B)} = \frac{P(A) - P(A \cap B)}{1 - P(B)} $$ 交叉相乘，展开，然后消去同类项，可得 P(A ∩ B) = P(A)P(B) 得证，故 A 和 B 独立
求P(A)

由加法公式可得 P(A ∪ B) = P(A) + P(B) − P(A)P(B) 代入P(B) = 2P(A) − P(A)²： $$ \frac{7}{9} = P(A) + (2P(A) - P(A)^2) - P(A)(2P(A) - P(A)^2) $$ 设P(A)为x，多项式分可解为：$(x - \frac{1}{3})(9x^2 - 24x + 21) = 0$

二次方程判定式 Δ = 24² − 4 × 9 × 21 = 576 − 756 = −180 < 0 故唯一实根为 $x = \frac{1}{3}$，即$ P(A) = $。
构造反例反证

设 P(A) = 0，P(B) = 0，则：
- P(A|B) 无定义（分母为 0），但形式上若规定 0|0 为任意值，此时 P(A ∩ B) = 0 = P(A)P(B)，看似独立，但是实际上没有意义。
- 设 P(A) = 1，P(B) = 1，则 P(A|B) = 1，$P(\overline{A}|\overline{B}) = P(\varnothing|\varnothing)$ 无定义，且 P(A ∩ B) = 1 = P(A)P(B)，仍看似独立；但严格来说，当 P(B) = 0 或 1 时，条件概率定义不成立，且独立性定义要求 0 < P(B) < 1，故去掉条件后结论可能因边界情况失效。

题目四：全概率公式和贝叶斯公式

某工厂有三条生产线 A、B、C，分别占总产量的 30%、50% 和 20%。已知各生产线的次品率如下：

生产线 A 的次品率为 2%，
生产线 B 的次品率为 1%，
生产线 C 的次品率为 3%。

现在进行以下两步操作：

从总产品中随机抽取一件进行检测，发现是次品。
将该次品放回后，再从总产品中随机抽取一件。

问题：

求第一次抽到次品的概率。（全概率公式的应用）
在第一次抽到次品的条件下，求第二次抽到的产品是合格品的概率。（贝叶斯公式与全概率公式的组合）

解答

先求第一次抽到是次品的概率

设事件：
- D1：第一次抽到次品，
- D2：第二次抽到次品，
- A：产品来自生产线 A，
- B：产品来自生产线 B，
- C：产品来自生产线 C。
根据全概率公式 P(D₁) = P(D₁|A)P(A) + P(D₁|B)P(B) + P(D₁|C)P(C) = 0.02 × 0.3 + 0.01 × 0.5 + 0.03 × 0.2 = 0.006 + 0.005 + 0.006 = 0.017
在第一次抽到次品的条件下，求第二次抽到合格品的概率

我们需要计算 P(合格 ∣ D1)，即第二次抽到合格品的概率，已知第一次抽到次品。由于第一次抽到的次品被放回，生产线的比例不变

首先，用贝叶斯公式计算在第一次抽到次品的条件下，产品来自各生产线的概率：

$$ P(A | D_1) = \frac{P(D_1 | A) P(A)}{P(D_1)} = \frac{0.02 \times 0.3}{0.017} \approx \frac{0.006}{0.017} \approx 0.3529\\ P(B | D_1) = \frac{P(D_1 | B) P(B)}{P(D_1)} = \frac{0.01 \times 0.5}{0.017} \approx \frac{0.005}{0.017} \approx 0.2941\\ P(C | D_1) = \frac{P(D_1 | C) P(C)}{P(D_1)} = \frac{0.03 \times 0.2}{0.017} \approx \frac{0.006}{0.017} \approx 0.3529 $$

接下来，第二次抽到合格品的概率是在本次情况下的全概率

根据全概率公式

P(合格|D₁) = P(合格|A)P(A|D₁) + P(合格|B)P(B|D₁) + P(合格|C)P(C|D₁) 其中 P(合格|A) = 1 − 0.02 = 0.98, P(合格|B) = 1 − 0.01 = 0.99, P(合格|C) = 1 − 0.03 = 0.97 因此

P(合格|D₁) ≈ 0.98 × 0.3529 + 0.99 × 0.2941 + 0.97 × 0.3529 ≈ 0.3458 + 0.2912 + 0.3423 ≈ 0.9793

多维随机变量及其分布

题目1

已知二维随机变量(X, Y)的联合概率密度为 $$ { } f(x,y) = \begin{cases} 4xy & 0 \le x \le 1, 0 \le y \le 1 \\0 & 其他\end{cases} $$ 求(X, Y)的联合分布函数

解答

二维随机变量 (X, Y) 的联合分布函数定义为： F(x, y) = P(X ≤ x, Y ≤ y) = ∫_−∞^x∫_−∞^yf(u, v) dv du 需根据 x 和 y 的取值范围分段讨论，共分为以下 5 种情况

当 x < 0 或 y < 0 时
- 若 x < 0，则积分下限 u 超出 f(u, v) 的非零区域（u ≥ 0），此时：
  F(x, y) = ∫−∞^x < 0∫−∞^y0 dv du = 0
- 若 y < 0，同理，v 超出非零区域，结果仍为：
  F(x, y) = 0 结论：
  F(x, y) = 0, x < 0 或 y < 0
当 0 ≤ x < 1 且 0 ≤ y < 1 时
- 此时 u 和 v 均在 f(u, v) 的非零区域内，积分范围为：
  u ∈ [0, x], v ∈ [0, y]
- 计算二重积分：
  F(x, y) = ∫₀^x∫₀^y4uv dv du
  - 先对 v 积分：
    $$ \int_{0}^{y} 4uv \, dv = 4u \int_{0}^{y} v \, dv = 4u \cdot \frac{v^2}{2} \bigg|_{0}^{y} = 4u \cdot \frac{y^2}{2} = 2uy^2 $$
  - 再对 (u) 积分：
    $$ \int_{0}^{x} 2uy^2 \, du = 2y^2 \int_{0}^{x} u \, du = 2y^2 \cdot \frac{u^2}{2} \bigg|_{0}^{x} = 2y^2 \cdot \frac{x^2}{2} = x^2y^2 $$ 结论： F(x, y) = x²y², 0 ≤ x < 1, 0 ≤ y < 1
当 x ≥ 1 且 0 ≤ y < 1 时
- u 超出非零区域的上限（u ≤ 1），故 u 的积分范围为 [0, 1]，v 仍为 [0, y]：
  F(x, y) = ∫₀¹∫₀^y4uv dv du
  - 对 (v) 积分（同情况 2）： ∫₀^y4uv dv = 2uy²
  - 对 (u) 积分： $$ \int_{0}^{1} 2uy^2 \, du = 2y^2 \cdot \frac{u^2}{2} \bigg|_{0}^{1} = 2y^2 \cdot \frac{1}{2} = y^2 $$ 结论： F(x, y) = y², x ≥ 1, 0 ≤ y < 1
当 0 ≤ x < 1 且 y ≥ 1 时
- v 超出非零区域的上限（v ≤ 1），故 v 的积分范围为 [0, 1]，u 为 [0, x]：
  F(x, y) = ∫₀^x∫₀¹4uv dv du
  - 对 v 积分：
    $$ \int_{0}^{1} 4uv \, dv = 4u \cdot \frac{v^2}{2} \bigg|_{0}^{1} = 4u \cdot \frac{1}{2} = 2u $$
  - 对 u 积分：
    $$ \int_{0}^{x} 2u \, du = 2 \cdot \frac{u^2}{2} \bigg|_{0}^{x} = x^2 $$ 结论：
    F(x, y) = x², 0 ≤ x < 1, y ≥ 1
当 x ≥ 1 且 y ≥ 1 时
- u 和 v 均覆盖整个非零区域，积分范围为：
  u ∈ [0, 1], v ∈ [0, 1]
- 计算二重积分：
  F(x, y) = ∫₀¹∫₀¹4uv dv du
  - 对 (v) 积分：
    ∫₀¹4uv dv = 2u
  - 对 (u) 积分：
    ∫₀¹2u du = 1 结论：
    F(x, y) = 1, x ≥ 1, y ≥ 1

最终联合分布函数

综合以上 5 种情况，(X, Y) 的联合分布函数为：
$$ F(x,y) = \begin{cases} 0, & x < 0 \ 或 \ y < 0 \\ x^2y^2, & 0 \leq x < 1, \ 0 \leq y < 1 \\ y^2, & x \geq 1, \ 0 \leq y < 1 \\ x^2, & 0 \leq x < 1, \ y \geq 1 \\ 1, & x \geq 1, \ y \geq 1 \end{cases} $$

题目2

设二维随机变量 (X, Y) 的联合概率密度函数为： $$ f(x, y) = \begin{cases} 6e^{-2x - 3y}, & x \geq 0, y \geq 0 \\ 0, & \text{其他} \end{cases} $$

求边缘概率密度函数 f_X(x) 和 f_Y(y)。
判断 X 和 Y 是否独立，并说明理由。

解答：

求边缘密度函数

f_X(x) ：对 y 积分，区间 0 到 +∞ f_X(x) = ∫₀^∞6e^{−2x − 3y} dy = 6e^−2x∫₀^∞e^−3y dy 令 u = −3y，则 du = −3dy，积分变为： $$ 6e^{-2x} \left[ -\frac{1}{3}e^{-3y} \right]_{0}^{\infty} = 6e^{-2x} \cdot \frac{1}{3} = 2e^{-2x} \quad (x \geq 0) $$ 因此 $$ f_X(x) = \begin{cases} 2e^{-2x}, & x \geq 0 \\ 0, & \text{其他} \end{cases} $$ f_Y(y) ：对 x 积分，区间 0 到 +∞

f_Y(y) = ∫₀^∞6e^{−2x − 3y} dx = 6e^−3y∫₀^∞e^−2x dx

   令 $u = -2x$，则 $du = -2dx$，积分变为：

$$ 6e^{-3y} \left[ -\frac{1}{2}e^{-2x} \right]_{0}^{\infty} = 6e^{-3y} \cdot \frac{1}{2} = 3e^{-3y} \quad (y \geq 0) $$ 因此 $$ f_Y(y) = \begin{cases} 3e^{-3y}, & y \geq 0 \\ 0, & \text{其他} \end{cases} $$

独立性判断

若 X 和 Y 独立，则需满足 f(x, y) = f_X(x) ⋅ f_Y(y)。

计算乘积 f_X(x) ⋅ f_Y(y) = (2e^−2x) ⋅ (3e^−3y) = 6e^{−2x − 3y} = f(x, y) 因此，X和Y独立

题目3：

设二维随机变量 (X, Y) 的联合分布律如下：

X ∖ Y	0	1
0	0.2	0.3
1	0.4	0.1

求 X 和 Y 的边缘分布律。
判断 X 和 Y 是否独立，并说明理由。

解答

P(X = 0) = 0.2 + 0.3 = 0.5

P(X = 1) = 0.4 + 0.1 = 0.5

即$X \sim \begin{pmatrix} 0 & 1 \\ 0.5 & 0.5 \end{pmatrix}$

P(Y = 0) = 0.2 + 0.4 = 0.6, P(Y = 1) = 0.3 + 0.1 = 0.4 即 $Y \sim \begin{pmatrix} 0 & 1 \\ 0.6 & 0.4 \end{pmatrix}$
独立性判断

若 X 和 Y 独立，则对所有 x, y 需满足 P(X = x, Y = y) = P(X = x) ⋅ P(Y = y)。

然而其中 P(X = 0, Y = 0) = 0.2 但 P(X = 0) ⋅ P(Y = 0) = 0.5 ⋅ 0.6 = 0.3 ≠ 0.2 因此，X 和 Y 不独立

题目4

设 X 和 Y 是相互独立的随机变量，且均服从标准正态分布 N(0, 1)。定义 Z = X + Y，求 Z 的概率密度函数 f_Z(z)。

解答：

属于是和的分布

卷积公式

由于 X 和 Y 独立，Z = X + Y 的概率密度函数为卷积： f_Z(z) = ∫_−∞^∞f_X(x) ⋅ f_Y(z − x) dx 其中 $f_X(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$，$f_Y(y) = \frac{1}{\sqrt{2\pi}}e^{-\frac{y^2}{2}}$。
代入并化简

代入 y = z − x： $$ f_Z(z) = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \cdot \frac{1}{\sqrt{2\pi}}e^{-\frac{(z - x)^2}{2}} \, dx $$ 合并指数项： $$ f_Z(z) = \frac{1}{2\pi} \int_{-\infty}^{\infty} e^{-\frac{x^2 + (z - x)^2}{2}} \, dx $$ 展开并整理指数部分： $$ x^2 + (z - x)^2 = 2x^2 - 2zx + z^2 = 2\left(x - \frac{z}{2}\right)^2 + \frac{z^2}{2} $$ 因此： $$ f_Z(z) = \frac{1}{2\pi} e^{-\frac{z^2}{4}} \int_{-\infty}^{\infty} e^{-\left(x - \frac{z}{2}\right)^2} \, dx $$
高斯积分

令 $u = x - \frac{z}{2}$，则积分变为标准高斯积分：
$$ \int_{-\infty}^{\infty} e^{-u^2} \, du = \sqrt{\pi} $$ 代入得： $$ f_Z(z) = \frac{1}{2\pi} e^{-\frac{z^2}{4}} \cdot \sqrt{\pi} = \frac{1}{\sqrt{4\pi}} e^{-\frac{z^2}{4}} $$ 即 Z ∼ N(0, 2)。

抽样分布与样本统计量部分

题目1

设总体 $ X B(1,p) $，其中 $ p $ 是未知参数，$ (X_1,X_2,,X_5) $ 是总体 $ X $ 的样本， 1. 写出样本空间和样本的联合概率分布； 2. 指出 $ X_1 + X_3,{X_1,X_2,,X_5},,(X_5 - X_1)^2 $ 中哪些是统计量，哪些不是统计量； 3. 若样本观测值为 $ 0,1,0,1,1 $，求样本均值与样本方差。

解答：

由于每个X_i只能取0或1，样本空间为所有可能的5维0-1向量： S = {(x₁, x₂, x₃, x₄, x₅)|x_i ∈ {0, 1}, i = 1, ⋯, 5} 共有2⁵ = 32个样本点。

由于样本独立同分布，联合概率分布为： $$ P(X_1=x_1,\cdots,X_5=x_5) = \prod_{i=1}^5 P(X_i=x_i) = p^{\sum_{i=1}^5 x_i}(1-p)^{5-\sum_{i=1}^5 x_i} $$ 其中x_i ∈ {0, 1}。
统计量都是已知量，不能包含未知量
1. X₁ + X₃：
- 仅依赖样本值，不依赖p
- 是统计量
1. min {X₁, ⋯, X₅}：
- 只与样本值有关
- 是统计量
1. $\frac{X_1}{p}$：
- 含有未知参数p
- 不是统计量
1. (X₅ − X₁)²：
- 仅依赖样本值
- 是统计量
样本观测值为(0, 1, 0, 1, 1)，样本的均值为 $$ \bar{x} = \frac{1}{5}\sum_{i=1}^5 x_i = \frac{0+1+0+1+1}{5} = \frac{3}{5} = 0.6 $$ 样本的方差为 $$ s^2 = \frac{1}{5-1}\left(\sum x_i^2 - 5\bar{x}^2\right) = \frac{1}{4}\left(3 - 5 \times 0.36\right) = \frac{1.2}{4} = 0.3 $$

问题2：

设总体 X ∼ N(μ, σ²)，从中抽取样本 X₁, X₂。

写出 (X₁, X₂) 的联合概率密度函数；
求样本均值 $\overline{X} = \frac{X_1 + X_2}{2}$ 的分布；
计算 $E(\overline{X})$ 和 $D(\overline{X})$；
若 μ = 1, σ² = 4，求 $P(\overline{X} > 1.5)$。

解答：

联合概率密度函数为 $$ f(x_1,x_2) = \prod_{i=1}^2 \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} $$
样本均值的分布为 $$ \overline{X} \sim N\left(\mu, \frac{\sigma^2}{2}\right) $$
$E(\overline{X})$为 $$ E(\overline{X}) = E(\frac{1}{n} \sum_{i = 1}^n X_i) = \frac{1}{n}EX_i = EX = \mu $$ $D(\overline{X})$为 $$ D(\overline{X}) = D(\frac{1}{n} \sum_{i = 1}^n X_i) = \frac{1}{n^2}D(\sum_{i = 1}^n X_i) = \frac{1}{n^2}\sum_{i = 1}^n DX_i = \frac{1}{n^2} .n\sigma^2 = \frac{\sigma^2}{n} $$
当 μ = 1, σ² = 4 时： $$ P(\overline{X} > 1.5) = 1 - \Phi\left(\frac{1.5-1}{\sqrt{2}}\right) \approx 1 - \Phi(0.3535) \approx 0.3618 $$

问题3：

设总体 X ∼ P(λ)，从中抽取样本 X₁, X₂, X₃。

求样本总和 T = X₁ + X₂ + X₃ 的分布；
证明 $\overline{X}$ 是 λ 的无偏估计；
计算 $D(\overline{X})$；
当 λ = 2 时，求 $P(\overline{X} \leq 1.5)$。

解答：

因为 X ∼ P(λ)，所以有 $$ P(X = k) = \frac{\lambda ^k e^{- \lambda}}{k!} $$ 容易得到，样本的总和分布为 T ∼ P(3λ)
无偏性证明 $$ E(\overline X) = E\left(\frac{T}{3}\right) = \frac{3\lambda}{3} = \lambda $$
方差计算 $$ D(\overline{X}) = \frac{D(X)}{n} = \frac{\lambda}{3} $$
当 λ = 2 时，T ∼ P(6)： $$ P(\overline{X} \leq 1.5) = P(T \leq 4.5) = P(T \leq 4) \approx 0.2851 $$

大数定律

题目1：

设 X₁, X₂, …, X_n 为独立同分布的随机变量序列，E(X_i) = μ，D(X_i) = σ² < ∞。则下列叙述正确的是：

A. $\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| \geq \epsilon\right) = 1$

B. $\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \epsilon\right) = 0$

C. $\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| \geq \epsilon\right) = 0$

D. $\lim_{n \to \infty} \frac{1}{n}\sum_{i=1}^n X_i = \mu$ 几乎必然成立

正确答案：C

详细解析：

切比雪夫大数定律的数学表述： $$ \lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| \geq \epsilon\right) = 0 $$ 这称为依概率收敛，对应选项C。
错误选项分析：
- A：与定律结论相反
- B：概率收敛到0应为收敛到1
- D：描述的是强大数定律，需要更强条件

题目2：

设 X₁, X₂, …, X₁₀₀ 为独立同分布的泊松随机变量，X_i ∼ P(λ)，则 $\sum_{i=1}^{100} X_i$ 的近似分布是：A

A. N(100λ, 100λ)

B. N(λ, λ)

C. P(100λ)

D. N(λ, λ/100)

泊松分布性质：
- E(X_i) = λ, D(X_i) = λ
- 具有可加性：∑X_i ∼ P(nλ)
中心极限定理应用：当 n = 100 较大时： $$ \sum_{i=1}^{100} X_i \approx N(n\lambda, n\lambda) = N(100\lambda, 100\lambda) $$
错误选项分析：
- B：描述的是单个X_i的近似
- C：精确分布非近似结果
- D：混淆了样本均值的分布

问题3

设 X₁, …, X_n 独立同分布，E(X_i) = 1, D(X_i) = 4。当 n 充分大时，P(X̄ ≤ 1.2) 的近似值为：

A. $\Phi(0.1\sqrt{n})$

B. $\Phi(0.2\sqrt{n})$

C. $1 - \Phi(0.1\sqrt{n})$

D. $\Phi(0.4\sqrt{n})$

详细解析：

标准化样本均值： $$ \bar{X} \approx N\left(1, \frac{4}{n}\right) \Rightarrow \frac{\bar{X}-1}{2/\sqrt{n}} \sim N(0,1) $$
概率计算： $$ P(\bar{X} \leq 1.2) = P\left(\frac{\bar{X}-1}{2/\sqrt{n}} \leq \frac{0.2}{2/\sqrt{n}}\right) \approx \Phi(0.1\sqrt{n}) $$
错误选项分析：
- B：系数错误（应为0.1）
- C：方向反了
- D：方差系数错误

参数估计部分

点估计

问题1

tag：矩估计，最大似然估计，无偏性，有效性

设 X₁, X₂, …, X_n 是来自总体 X 的简单随机样本，总体概率密度函数为： $$ f(x;\theta) = \begin{cases} \theta x^{\theta-1}, & 0 < x < 1 \\ 0, & \text{其他} \end{cases} $$ 其中 θ > 0 为未知参数。

求 θ 的矩估计量 θ̂₁；
求 θ 的最大似然估计量 θ̂₂；
验证 θ̂₁ 和 θ̂₂ 的无偏性，并比较它们的有效性。

解答

矩估计：
- 计算总体矩 $$ \begin{align*} E(X) & = \int_0^1 x \cdot \theta x^{\theta-1} \, dx \\ & = \int_0^1 \theta x^{\theta} \, dx \\ & = \theta \int_0^1 x^{\theta} \, dx \\ & = \theta \cdot \left. \frac{x^{\theta + 1}}{\theta + 1} \right|_0^1 \\ & = \theta \cdot \left( \frac{1^{\theta + 1}}{\theta + 1} - \frac{0^{\theta + 1}}{\theta + 1} \right) \\ & = \theta \cdot \frac{1}{\theta + 1} \\ & = \frac{\theta}{\theta + 1} \end{align*} $$
- 令样本矩等于总体矩： $$ \bar{X} = \frac{\theta}{\theta+1} $$
- 解得 $$ \hat{\theta}_1 = \frac{\bar{X}}{1-\bar{X}} $$
最大似然估计量
- 似然函数 $$ L(\theta) = \prod_{i=1}^n \theta X_i^{\theta-1} = \theta^n \left(\prod_{i=1}^n X_i\right)^{\theta-1} $$
- 取对数 $$ \ln L(\theta) = n\ln\theta + (\theta-1)\sum_{i=1}^n \ln X_i $$
- 两边求导得到 $$ \frac{d}{d\theta}\ln L(\theta) = \frac{n}{\theta} + \sum_{i=1}^n \ln X_i = 0 $$
- 解得最大似然估计量θ̂₂为 $$ \hat{\theta}_2 = -\frac{n}{\sum_{i=1}^n \ln X_i} $$
无偏性与有效性
- 矩估计量的无偏性
  - 计算$E(\hat{\theta}_1) = E\left(\frac{\bar{X}}{1-\bar{X}}\right)$
  - 由于 $\bar{X} = \frac{1}{n}\sum X_i$，且 X_i ∼ f(x; θ)
  - 通过泰勒展开或直接计算可得 $E(\hat{\theta}_1) \approx \theta + \frac{\theta+1}{n}$（当 n 较大时）
  - 结论：θ̂₁ 是渐近无偏的，但对有限样本是有偏的
- 最大似然估计的无偏性：
  - 令 Y_i = −ln X_i，则 Y_i 服从指数分布 Exp(θ)
  - θ̂₂ = n/∑Y_i 是倒指数分布参数的估计
  - 已知 $E(\hat{\theta}_2) = \frac{n}{n-1}\theta \neq \theta$（当 n > 1）
  - 结论：θ̂₂ 是有偏估计
- 有效性比较：

问题2：

设 X₁, X₂, …, X_n 是来自泊松分布 P(λ) 的简单随机样本，其中 λ > 0 为未知参数。

(矩估计) 求 λ 的矩估计量 λ̂₁；
(最大似然估计) 求 λ 的最大似然估计量 λ̂₂；
(无偏性与有效性) 设 $T = \frac{1}{n}\sum_{i=1}^n X_i^2 - \bar{X}$，证明 T 是 λ² 的无偏估计，并讨论其有效性。

解答：

矩估计：
- X ∼ P(λ)，所以 $X = \frac{e^{-\lambda}\lambda^{X}}{X!}$
- 由于是泊松分布，所以 E(X) = λ，直接得 λ̂₁ = X̄
最大似然估计：
- 似然函数：$L(\lambda) = \prod_{i=1}^n \frac{e^{-\lambda}\lambda^{X_i}}{X_i!}$
- 对数似然函数：$\ln L(\lambda) = -n\lambda + \ln\lambda \sum_{i=1}^n X_i - \sum_{i=1}^n \ln(X_i!)$
- 求导得：$\frac{d}{d\lambda}\ln L(\lambda) = -n + \frac{1}{\lambda}\sum_{i=1}^n X_i = 0$
- 解得：λ̂₂ = X̄
无偏性与有效性：
- 无偏性证明：
  - 已知泊松分布 E(X_i) = λ, Var(X_i) = λ
  - E(X_i²) = Var(X_i) + [E(X_i)]² = λ + λ²
  - $E(T) = \frac{1}{n}\sum E(X_i^2) - E(\bar{X}) = (\lambda + \lambda^2) - \lambda = \lambda^2$
  - 结论：T 是 λ² 的无偏估计
- 有效性分析：
  - 计算 $\text{Var}(T) = \text{Var}\left(\frac{1}{n}\sum X_i^2 - \bar{X}\right)$
  - 展开得 $\text{Var}(T) = \frac{1}{n^2}\sum\text{Var}(X_i^2) + \text{Var}(\bar{X}) - \frac{2}{n}\text{Cov}(\sum X_i^2, \bar{X})$
  - 对于泊松分布，Var(X_i²) = E(X_i⁴) − [E(X_i²)]² = λ + 7λ² + 6λ³ + λ⁴ − (λ + λ²)²
  - 计算得 $\text{Var}(T) = \frac{4\lambda^3 + 6\lambda^2 + \lambda}{n} + O(\frac{1}{n^2})$
  - 与 C-R 下界比较（需先求 λ² 的 Fisher 信息）
  - 结论：T 是 λ² 的有效估计（达到 C-R 下界）

问题3

设 X₁, X₂, …, X_n 是来自总体 X 的简单随机样本，总体服从参数为 θ 的指数分布，其概率密度函数为： $$ f(x;\theta) = \begin{cases} \theta e^{-\theta x}, & x > 0 \\ 0, & x \leq 0 \end{cases} $$ 其中 θ > 0 为未知参数。

考虑以下两个估计量： 1. $\hat{\theta}_1 = \frac{1}{\bar{X}}$，其中 $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$ 2. $\hat{\theta}_2 = \frac{n-1}{\sum_{i=1}^n X_i}$

请完成： 1. 验证 θ̂₁ 和 θ̂₂ 的无偏性； 2. 比较两个估计量的有效性； 3. 讨论哪个估计量更优，并说明理由。

解答：

无偏性验证

对于θ̂₁：
- 已知$\sum_{i=1}^n X_i \sim Gamma(n, \theta)$，其概率密度函数为： $$ f_Y(y) = \frac{\theta^n y^{n-1} e^{-\theta y}}{\Gamma(n)}, \quad y > 0 $$
- 计算 $E\left[\frac{1}{\bar{X}}\right] = E\left[\frac{n}{\sum X_i}\right] = n E\left[\frac{1}{Y}\right]$，其中 Y = ∑X_i
- 计算积分 $$ E\left[\frac{1}{Y}\right] = \int_0^\infty \frac{1}{y} \cdot \frac{\theta^n y^{n-1} e^{-\theta y}}{\Gamma(n)} dy = \frac{\theta^n}{\Gamma(n)} \int_0^\infty y^{n-2} e^{-\theta y} dy $$
  
  利用 Gamma 积分： $$ \int_0^\infty y^{n-2} e^{-\theta y} dy = \frac{\Gamma(n-1)}{\theta^{n-1}} \quad (n > 1) $$
- 因此： $$ E\left[\frac{1}{Y}\right] = \frac{\theta^n}{\Gamma(n)} \cdot \frac{\Gamma(n-1)}{\theta^{n-1}} = \frac{\theta}{n-1} $$
- 最终： $$ E[\hat{\theta}_1] = n \cdot \frac{\theta}{n-1} = \frac{n}{n-1}\theta \neq \theta $$
- 结论：θ̂₁ 是有偏估计。
对于θ₂:
- 类似地计算： $$ E[\hat{\theta}_2] = (n-1) E\left[\frac{1}{Y}\right] = (n-1) \cdot \frac{\theta}{n-1} = \theta $$
- 结论：θ̂₂ 是无偏估计。
有效性比较

计算方差：

对于 θ̂₁： - 计算 $E\left[\frac{1}{Y^2}\right]$： $$ E\left[\frac{1}{Y^2}\right] = \int_0^\infty \frac{1}{y^2} \cdot \frac{\theta^n y^{n-1} e^{-\theta y}}{\Gamma(n)} dy = \frac{\theta^n}{\Gamma(n)} \int_0^\infty y^{n-3} e^{-\theta y} dy = \frac{\theta^n}{\Gamma(n)} \cdot \frac{\Gamma(n-2)}{\theta^{n-2}} = \frac{\theta^2}{(n-1)(n-2)} \quad (n > 2) $$ - 因此： $$ \text{Var}\left(\frac{1}{Y}\right) = E\left[\frac{1}{Y^2}\right] - \left(E\left[\frac{1}{Y}\right]\right)^2 = \frac{\theta^2}{(n-1)(n-2)} - \frac{\theta^2}{(n-1)^2} = \frac{\theta^2}{(n-1)^2(n-2)} $$ - 最终： $$\text{Var}(\hat{\theta}_1) = n^2 \cdot \text{Var}\left(\frac{1}{Y}\right) = \frac{n^2 \theta^2}{(n-1)^2(n-2)}$$

对于 θ̂₂：

$$ \text{Var}(\hat{\theta}_2) = (n-1)^2 \cdot \text{Var}\left(\frac{1}{Y}\right) = \frac{(n-1)^2 \theta^2}{(n-1)^2(n-2)} = \frac{\theta^2}{n-2} $$

比较方差：

当 n > 2 时： $$ \text{Var}(\hat{\theta}_2) = (n-1)^2 \cdot \text{Var}\left(\frac{1}{Y}\right) = \frac{(n-1)^2 \theta^2}{(n-1)^2(n-2)} = \frac{\theta^2}{n-2} $$

结论
- 无偏性：θ̂₂ 是无偏估计，θ̂₁ 是有偏估计；
- 有效性：θ̂₂ 的方差更小；
- 最优估计：θ̂₂ 在无偏性和有效性两方面都优于 θ̂₁，因此是更优的估计量。
  
  补充说明：
  - 虽然 θ̂₁ 是有偏的，但当 n → ∞ 时，E[θ̂₁] → θ，称为渐近无偏；
  - θ̂₂ 达到了 Cramer-Rao 下界，是最小方差无偏估计 (UMVUE)。

区间估计

题目1

设某厂生产的零件长度服从正态分布 N(μ, σ²)，其中 σ² 未知。现随机抽取16个零件，测得样本均值 x̄ = 20.5 cm，样本标准差 s = 1.2 cm。求：

总体均值 μ 的95%置信区间；
总体方差 σ² 的90%置信区间。

解答：

总体均值 μ 的95%置信区间
- 确定统计量
  
  当总体方差未知的时候，使用t统计量 $$ T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1) $$
- 确定置信水平
  
  置信水平 1 − α = 95%，故 α = 0.05
- 查表
  
  自由度 df = n − 1 = 15，查 t 分布表得： t_α/2(15) = t_0.025(15) = 2.131
- 计算置信区间
  
  置信区间公式 $$ \left[ \bar{x} - t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}}, \bar{x} + t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}} \right] $$
- 代入数值 $$ \left[ 20.5 - 2.131 \times \frac{1.2}{\sqrt{16}}, 20.5 + 2.131 \times \frac{1.2}{\sqrt{16}} \right] = [19.86, 21.14] $$
- 结论
  
  σ² 的90%置信区间为 [0.864, 2.975] cm²
总体方差 σ² 的90%置信区间
- 确定统计量
  
  总体均值已知，估计总体方差 $$ \chi^2 = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) $$
- 确定置信水平
  
  置信水平 1 − α = 90%，故 α = 0.10
  - 查表自由度 df = n − 1 = 15，查 χ² 分布表得： $$ \chi^2_{1-\alpha/2}(15) = \chi^2_{0.95}(15) = 7.261 \\ \chi^2_{\alpha/2}(15) = \chi^2_{0.05}(15) = 24.996 $$
- 计算置信区间 $$ \left[ \frac{(n-1)s^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}(n-1)} \right] $$
  
  估计总体方差，总体均值已知未知都是这个式子
- 代入数值： $$ \left[ \frac{15 \times 1.2^2}{24.996}, \frac{15 \times 1.2^2}{7.261} \right] = \left[ \frac{21.6}{24.996}, \frac{21.6}{7.261} \right] = [0.864, 2.975] $$
- 结论
  
  σ² 的90%置信区间为 [0.864, 2.975] cm²