随机事件和概率部分

题目1:古典概型

一个箱子里装有8个不同编号的红球、6个不同编号的白球和4个不同编号的黑球。现从中无放回地抽取4个球,求满足以下条件的概率:

  1. 抽取的4个球中,红球、白球、黑球至少各有1个。
  2. 已知抽取的4个球中至少有2个红球,求恰好有2个红球的概率。

解答:

  1. 设 抽取的4个球中,红球、白球、黑球至少各有1个 为事件 X

    而,从8 + 6 + 4 = 18个球中无放回抽取4个球的组合数,根据组合数公式$C(n,k)=\frac{n!}{k!(n - k)!}$,可得总样本数为 $$ C(18,4)=\frac{18!}{4!(18 - 4)!}=\frac{18\times17\times16\times15}{4\times3\times2\times1}=3060 $$ 而事件 X 可以分成如下三种情况讨论

    • “2红1白1黑” 的组合数为 $$ C(8,2)\times C(6,1)\times C(4,1)=\frac{8!}{2!(8 - 2)!}\times\frac{6!}{1!(6 - 1)!}\times\frac{4!}{1!(4 - 1)!}=28\times6\times4 = 672 $$

    • “1红2白1黑” 的组合数为 $$ C(8,1)\times C(6,2)\times C(4,1)=\frac{8!}{1!(8 - 1)!}\times\frac{6!}{2!(6 - 2)!}\times\frac{4!}{1!(4 - 1)!}=8\times15\times4 = 480 $$

    • “1红1白2黑” 的组合数为 $$ C(8,1)\times C(6,1)\times C(4,2)=\frac{8!}{1!(8 - 1)!}\times\frac{6!}{1!(6 - 1)!}\times\frac{4!}{2!(4 - 2)!}=8\times6\times6 = 288 $$

    所以,事件 X 发生的概率为 $P(X) = \frac{1440}{3060} = \frac{8}{17}$

  2. 而设 已知抽取的4个球中至少有2个红球,求恰好有2个红球 为事件Z

    而设 抽取的4个球中恰好有2个红球 为事件C

    事件 C 可分为如下三种情况讨论

    1. 2红2白” 的组合数为 $$ C(8,2)\times C(6,2)=\frac{8!}{2!(8 - 2)!}\times\frac{6!}{2!(6 - 2)!}=28\times15 = 420 $$

    2. “2红2黑” 的组合数为 $$ C(8,2)\times C(4,2)=\frac{8!}{2!(8 - 2)!}\times\frac{4!}{2!(4 - 2)!}=28\times6 = 168 $$

    3. 由 1. 中计算可知 “2红1白1黑” 的组合数为672,所以 $$ P(C)=\frac{420 + 168+672}{3060}=\frac{1260}{3060}=\frac{7}{17} $$

    而设 抽取的4个球中至少有2个红球 为事件V

    事件V可以分为如下三种情况讨论

    1. 3个红球” 的组合数为 $$ C(8,3)\times[C(6,1)+C(4,1)+C(6,0)\times C(4,0)]=\frac{8!}{3!(8 - 3)!}\times(6 + 4+1)=56\times11 = 616 $$

    2. “4个红球” 的组合数为 $$ C(8,4)=\frac{8!}{4!(8 - 4)!}=70 $$

    3. 而两个红球的组合数在上述已知得到为 1260

    所以 $$ P(V) = \frac{1260+616 + 70}{3060}=\frac{1946}{3060}=\frac{973}{1530} $$ 根据条件概率公式,因为A ⊆ B,所以A ∩ B = A,则 $$ P(A|B)=\frac{P(A)}{P(B)}=\frac{\frac{7}{17}}{\frac{973}{1530}}=\frac{7\times1530}{17\times973}=\frac{10710}{16541}\approx0.647 $$

题目2:条件概率与独立性

设事件 A 和 B 满足:$P(A|B) = \frac{2}{3}, \quad P(B|A) = \frac{3}{4}, \quad P(A \cup B) = \frac{11}{12}$

  1. P(A)P(B)
  2. 计算 $P(\overline{A} | \overline{B})$,其中 $\overline{A}$ 表示 A 的补事件;
  3. 证明:若 P(A|B) = P(B|A),则 P(A) = P(B)P(A ∩ B) = 1 − P(A) − P(B)(当 P(A) + P(B) ≠ 1 时)。

解答

  1. 计算条件概率 $$ P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{2}{3} \quad \Rightarrow \quad P(A \cap B) = \frac{2}{3}P(B) \tag{1} $$

    $$ P(B|A) = \frac{P(A \cap B)}{P(A)} = \frac{3}{4} \quad \Rightarrow \quad P(A \cap B) = \frac{3}{4}P(A) \tag{2} $$

    联立(1)和(2)式子,得到 $$ \frac{2}{3}P(B) = \frac{3}{4}P(A) \quad \Rightarrow \quad P(A) = \frac{8}{9}P(B) \tag{3} $$ 由加法公式可得 $$ P(A \cup B) = P(A) + P(B) - P(A \cap B) = \frac{11}{12} $$ 代入 (1)(3): $$ \frac{8}{9}P(B) + P(B) - \frac{2}{3}P(B) = \frac{11}{12} $$ 解得 $$ \left(\frac{8}{9} + 1 - \frac{2}{3}\right)P(B) = \frac{11}{12} \quad \Rightarrow \quad \frac{11}{9}P(B) = \frac{11}{12} \quad \Rightarrow \quad P(B) = \frac{3}{4} $$

    $$ P(A) = \frac{8}{9}P(B) = \frac{2}{3} $$

  2. 计算 $P(\overline{A} | \overline{B})$ 先求 $P(\overline{A} \cap \overline{B})$ $$ P(\overline{A} \cap \overline{B}) = 1 - P(A \cup B) = 1 - \frac{11}{12} = \frac{1}{12} $$ 在求$P(\overline B)$ $$ P(\overline{B}) = 1 - P(B) = 1 - \frac{3}{4} = \frac{1}{4} $$ 由条件概率公式 $$ P(\overline{A} | \overline{B}) = \frac{P(\overline{A} \cap \overline{B})}{P(\overline{B})} = \frac{1/12}{1/4} = \frac{1}{3} $$

  3. 对称性证明

    P(A|B) = P(B|A),则 $$ \frac{P(A \cap B)}{P(B)} = \frac{P(A \cap B)}{P(A)} $$ 题目中,P(A) + P(B) ≠ 1,所以P(A ∩ B) = 0 = 1 − P(A) − P(B),不成立,这种情况不能成立

    P(A ∩ B) ≠ 0,两边同除以 P(A ∩ B) 得: $$ \frac{1}{P(B)} = \frac{1}{P(A)} \quad \Rightarrow \quad P(A) = P(B) $$ 综上,当 P(A) + P(B) ≠ 1 时,必有 P(A) = P(B),得证

题目三:独立性证明

设事件 AB 满足 0 < P(A) < 10 < P(B) < 1,且: $$ P(A|B) = 1 - P(\overline{A}|\overline{B}), \quad P(B) = 2P(A) - P(A)^2 $$

  1. 证明 A 和 B 独立;
  2. $P(A \cup B) = \frac{7}{9}$,求 P(A)
  3. 构造反例说明:若去掉 0 < P(A) < 10 < P(B) < 1 的条件,独立性结论不成立。

解答

  1. 独立性证明

    先化简 $P(\overline{A}|\overline{B})$$$ P(\overline{A}|\overline{B}) = \frac{P(\overline{A} \cap \overline{B})}{P(\overline{B})} = \frac{1 - P(A \cup B)}{1 - P(B)} $$ 而题设 $P(A|B) = 1 - P(\overline{A}|\overline{B})$,所以有 $$ \frac{P(A \cap B)}{P(B)} = 1 - \frac{1 - P(A \cup B)}{1 - P(B)} $$ 通分右边: $$ 1 - \frac{1 - P(A) - P(B) + P(A \cap B)}{1 - P(B)} = \frac{(1 - P(B)) - (1 - P(A) - P(B) + P(A \cap B))}{1 - P(B)} = \frac{P(A) - P(A \cap B)}{1 - P(B)} $$ 等式变为: $$ \frac{P(A \cap B)}{P(B)} = \frac{P(A) - P(A \cap B)}{1 - P(B)} $$ 交叉相乘,展开,然后消去同类项,可得 P(A ∩ B) = P(A)P(B) 得证,故 A 和 B 独立

  2. P(A)

    由加法公式可得 P(A ∪ B) = P(A) + P(B) − P(A)P(B) 代入P(B) = 2P(A) − P(A)2$$ \frac{7}{9} = P(A) + (2P(A) - P(A)^2) - P(A)(2P(A) - P(A)^2) $$P(A)x,多项式分可解为:$(x - \frac{1}{3})(9x^2 - 24x + 21) = 0$

    二次方程判定式 Δ = 242 − 4 × 9 × 21 = 576 − 756 = −180 < 0 故唯一实根为 $x = \frac{1}{3}$,即$ P(A) = $。

  3. 构造反例反证

    P(A) = 0P(B) = 0,则:

    • P(A|B) 无定义(分母为 0),但形式上若规定 0|0 为任意值,此时 P(A ∩ B) = 0 = P(A)P(B),看似独立,但是实际上没有意义。
    • P(A) = 1P(B) = 1,则 P(A|B) = 1$P(\overline{A}|\overline{B}) = P(\varnothing|\varnothing)$ 无定义,且 P(A ∩ B) = 1 = P(A)P(B),仍看似独立; 但严格来说,当 P(B) = 0 或 1 时,条件概率定义不成立,且独立性定义要求 0 < P(B) < 1,故去掉条件后结论可能因边界情况失效。

题目四:全概率公式和贝叶斯公式

某工厂有三条生产线 A、B、C,分别占总产量的 30%、50% 和 20%。已知各生产线的次品率如下:

  • 生产线 A 的次品率为 2%,
  • 生产线 B 的次品率为 1%,
  • 生产线 C 的次品率为 3%。

现在进行以下两步操作:

  1. 从总产品中随机抽取一件进行检测,发现是次品。
  2. 将该次品放回后,再从总产品中随机抽取一件。

问题:

  1. 求第一次抽到次品的概率。(全概率公式的应用)
  2. 在第一次抽到次品的条件下,求第二次抽到的产品是合格品的概率。(贝叶斯公式与全概率公式的组合)

解答

  1. 先求第一次抽到是次品的概率

    设事件:

    • D1:第一次抽到次品,
    • D2:第二次抽到次品,
    • A:产品来自生产线 A,
    • B:产品来自生产线 B,
    • C:产品来自生产线 C。

    根据全概率公式 P(D1) = P(D1|A)P(A) + P(D1|B)P(B) + P(D1|C)P(C) = 0.02 × 0.3 + 0.01 × 0.5 + 0.03 × 0.2 = 0.006 + 0.005 + 0.006 = 0.017

  2. 在第一次抽到次品的条件下,求第二次抽到合格品的概率

    我们需要计算 P( ∣ D1),即第二次抽到合格品的概率,已知第一次抽到次品。由于第一次抽到的次品被放回,生产线的比例不变

    首先,用贝叶斯公式计算在第一次抽到次品的条件下,产品来自各生产线的概率:

$$ P(A | D_1) = \frac{P(D_1 | A) P(A)}{P(D_1)} = \frac{0.02 \times 0.3}{0.017} \approx \frac{0.006}{0.017} \approx 0.3529\\ P(B | D_1) = \frac{P(D_1 | B) P(B)}{P(D_1)} = \frac{0.01 \times 0.5}{0.017} \approx \frac{0.005}{0.017} \approx 0.2941\\ P(C | D_1) = \frac{P(D_1 | C) P(C)}{P(D_1)} = \frac{0.03 \times 0.2}{0.017} \approx \frac{0.006}{0.017} \approx 0.3529 $$

接下来,第二次抽到合格品的概率是在本次情况下的全概率

根据全概率公式

P(合格|D1) = P(合格|A)P(A|D1) + P(合格|B)P(B|D1) + P(合格|C)P(C|D1) 其中 P(合格|A) = 1 − 0.02 = 0.98,  P(合格|B) = 1 − 0.01 = 0.99,  P(合格|C) = 1 − 0.03 = 0.97 因此

P(合格|D1) ≈ 0.98 × 0.3529 + 0.99 × 0.2941 + 0.97 × 0.3529 ≈ 0.3458 + 0.2912 + 0.3423 ≈ 0.9793

多维随机变量及其分布

题目1

已知二维随机变量(X, Y)的联合概率密度为 $$ { } f(x,y) = \begin{cases} 4xy & 0 \le x \le 1, 0 \le y \le 1 \\0 & 其他\end{cases} $$(X, Y)的联合分布函数

解答

二维随机变量 (X, Y) 的联合分布函数定义为: F(x, y) = P(X ≤ xY ≤ y) = ∫−∞x−∞yf(u, v) dvdu 需根据 xy 的取值范围分段讨论,共分为以下 5 种情况

  1. x < 0y < 0

    • x < 0,则积分下限 u 超出 f(u, v) 的非零区域(u ≥ 0),此时:
      F(x, y) = ∫−∞x < 0∫−∞y0 dvdu = 0

    • 若 y < 0,同理,v 超出非零区域,结果仍为:
      F(x, y) = 0 结论
      F(x, y) = 0,  x < 0  y < 0

  2. 0 ≤ x < 10 ≤ y < 1

    • 此时 uv 均在 f(u, v) 的非零区域内,积分范围为:
      u ∈ [0, x],  v ∈ [0, y]

    • 计算二重积分:
      F(x, y) = ∫0x0y4uvdvdu

      • 先对 v 积分:
        $$ \int_{0}^{y} 4uv \, dv = 4u \int_{0}^{y} v \, dv = 4u \cdot \frac{v^2}{2} \bigg|_{0}^{y} = 4u \cdot \frac{y^2}{2} = 2uy^2 $$
      • 再对 (u) 积分:
        $$ \int_{0}^{x} 2uy^2 \, du = 2y^2 \int_{0}^{x} u \, du = 2y^2 \cdot \frac{u^2}{2} \bigg|_{0}^{x} = 2y^2 \cdot \frac{x^2}{2} = x^2y^2 $$ 结论F(x, y) = x2y2,  0 ≤ x < 1, 0 ≤ y < 1
  3. x ≥ 10 ≤ y < 1

    • u 超出非零区域的上限(u ≤ 1),故 u 的积分范围为 [0, 1]v 仍为 [0, y]
      F(x, y) = ∫010y4uvdvdu

      • 对 (v) 积分(同情况 2): 0y4uvdv = 2uy2
      • 对 (u) 积分: $$ \int_{0}^{1} 2uy^2 \, du = 2y^2 \cdot \frac{u^2}{2} \bigg|_{0}^{1} = 2y^2 \cdot \frac{1}{2} = y^2 $$ 结论F(x, y) = y2,  x ≥ 1, 0 ≤ y < 1
  4. 0 ≤ x < 1y ≥ 1

    • v 超出非零区域的上限(v ≤ 1),故 v 的积分范围为 [0, 1]u[0, x]
      F(x, y) = ∫0x014uvdvdu

      • v 积分:
        $$ \int_{0}^{1} 4uv \, dv = 4u \cdot \frac{v^2}{2} \bigg|_{0}^{1} = 4u \cdot \frac{1}{2} = 2u $$
      • u 积分:
        $$ \int_{0}^{x} 2u \, du = 2 \cdot \frac{u^2}{2} \bigg|_{0}^{x} = x^2 $$ 结论
        F(x, y) = x2,  0 ≤ x < 1, y ≥ 1
  5. x ≥ 1y ≥ 1

    • uv 均覆盖整个非零区域,积分范围为:
      u ∈ [0, 1],  v ∈ [0, 1]

    • 计算二重积分:
      F(x, y) = ∫01014uvdvdu

      • 对 (v) 积分:
        014uvdv = 2u

      • 对 (u) 积分:
        012udu = 1 结论
        F(x, y) = 1,  x ≥ 1, y ≥ 1

最终联合分布函数

综合以上 5 种情况,(X, Y) 的联合分布函数为:
$$ F(x,y) = \begin{cases} 0, & x < 0 \ 或 \ y < 0 \\ x^2y^2, & 0 \leq x < 1, \ 0 \leq y < 1 \\ y^2, & x \geq 1, \ 0 \leq y < 1 \\ x^2, & 0 \leq x < 1, \ y \geq 1 \\ 1, & x \geq 1, \ y \geq 1 \end{cases} $$

题目2

设二维随机变量 (X, Y) 的联合概率密度函数为: $$ f(x, y) = \begin{cases} 6e^{-2x - 3y}, & x \geq 0, y \geq 0 \\ 0, & \text{其他} \end{cases} $$

  1. 求边缘概率密度函数 fX(x)fY(y)
  2. 判断 X 和 Y 是否独立,并说明理由。

解答:

  1. 求边缘密度函数

    fX(x) :对 y 积分,区间 0+∞ fX(x) = ∫06e−2x − 3ydy = 6e−2x0e−3ydyu = −3y,则 du = −3dy,积分变为: $$ 6e^{-2x} \left[ -\frac{1}{3}e^{-3y} \right]_{0}^{\infty} = 6e^{-2x} \cdot \frac{1}{3} = 2e^{-2x} \quad (x \geq 0) $$ 因此 $$ f_X(x) = \begin{cases} 2e^{-2x}, & x \geq 0 \\ 0, & \text{其他} \end{cases} $$ fY(y) :对 x 积分,区间 0+∞

fY(y) = ∫06e−2x − 3ydx = 6e−3y0e−2xdx

   令 $u = -2x$,则 $du = -2dx$,积分变为:

$$ 6e^{-3y} \left[ -\frac{1}{2}e^{-2x} \right]_{0}^{\infty} = 6e^{-3y} \cdot \frac{1}{2} = 3e^{-3y} \quad (y \geq 0) $$ 因此 $$ f_Y(y) = \begin{cases} 3e^{-3y}, & y \geq 0 \\ 0, & \text{其他} \end{cases} $$

  1. 独立性判断

    XY 独立,则需满足 f(x, y) = fX(x) ⋅ fY(y)

    计算乘积 fX(x) ⋅ fY(y) = (2e−2x) ⋅ (3e−3y) = 6e−2x − 3y = f(x, y) 因此,XY独立

题目3:

设二维随机变量 (X, Y) 的联合分布律如下:

X ∖ Y 0 1
0 0.2 0.3
1 0.4 0.1
  1. 求 X 和 Y 的边缘分布律。
  2. 判断 X 和 Y 是否独立,并说明理由。

解答

  1. P(X = 0) = 0.2 + 0.3 = 0.5

    P(X = 1) = 0.4 + 0.1 = 0.5

    $X \sim \begin{pmatrix} 0 & 1 \\ 0.5 & 0.5 \end{pmatrix}$

    P(Y = 0) = 0.2 + 0.4 = 0.6,  P(Y = 1) = 0.3 + 0.1 = 0.4$Y \sim \begin{pmatrix} 0 & 1 \\ 0.6 & 0.4 \end{pmatrix}$

  2. 独立性判断

    XY 独立,则对所有 x, y 需满足 P(X = x, Y = y) = P(X = x) ⋅ P(Y = y)

    然而其中 P(X = 0, Y = 0) = 0.2  但  P(X = 0) ⋅ P(Y = 0) = 0.5 ⋅ 0.6 = 0.3 ≠ 0.2 因此,XY 不独立

题目4

XY 是相互独立的随机变量,且均服从标准正态分布 N(0, 1)。定义 Z = X + Y,求 Z 的概率密度函数 fZ(z)

解答:

属于是和的分布

  1. 卷积公式

    由于 X 和 Y 独立,Z = X + Y 的概率密度函数为卷积: fZ(z) = ∫−∞fX(x) ⋅ fY(z − x) dx 其中 $f_X(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$$f_Y(y) = \frac{1}{\sqrt{2\pi}}e^{-\frac{y^2}{2}}$

  2. 代入并化简

    代入 y = z − x$$ f_Z(z) = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \cdot \frac{1}{\sqrt{2\pi}}e^{-\frac{(z - x)^2}{2}} \, dx $$ 合并指数项: $$ f_Z(z) = \frac{1}{2\pi} \int_{-\infty}^{\infty} e^{-\frac{x^2 + (z - x)^2}{2}} \, dx $$ 展开并整理指数部分: $$ x^2 + (z - x)^2 = 2x^2 - 2zx + z^2 = 2\left(x - \frac{z}{2}\right)^2 + \frac{z^2}{2} $$ 因此: $$ f_Z(z) = \frac{1}{2\pi} e^{-\frac{z^2}{4}} \int_{-\infty}^{\infty} e^{-\left(x - \frac{z}{2}\right)^2} \, dx $$

  3. 高斯积分

    $u = x - \frac{z}{2}$,则积分变为标准高斯积分:
    $$ \int_{-\infty}^{\infty} e^{-u^2} \, du = \sqrt{\pi} $$ 代入得: $$ f_Z(z) = \frac{1}{2\pi} e^{-\frac{z^2}{4}} \cdot \sqrt{\pi} = \frac{1}{\sqrt{4\pi}} e^{-\frac{z^2}{4}} $$Z ∼ N(0, 2)

抽样分布与样本统计量部分

题目1

设总体 $ X B(1,p) $,其中 $ p $ 是未知参数,$ (X_1,X_2,,X_5) $ 是总体 $ X $ 的样本, 1. 写出样本空间和样本的联合概率分布; 2. 指出 $ X_1 + X_3,{X_1,X_2,,X_5},,(X_5 - X_1)^2 $ 中哪些是统计量,哪些不是统计量; 3. 若样本观测值为 $ 0,1,0,1,1 $,求样本均值与样本方差。

解答:

  1. 由于每个Xi只能取0或1,样本空间为所有可能的5维0-1向量: S = {(x1, x2, x3, x4, x5)|xi ∈ {0, 1}, i = 1, ⋯, 5} 共有25 = 32个样本点。

    由于样本独立同分布,联合概率分布为: $$ P(X_1=x_1,\cdots,X_5=x_5) = \prod_{i=1}^5 P(X_i=x_i) = p^{\sum_{i=1}^5 x_i}(1-p)^{5-\sum_{i=1}^5 x_i} $$ 其中xi ∈ {0, 1}

  2. 统计量都是已知量,不能包含未知量

    1. X1 + X3
    • 仅依赖样本值,不依赖p
    • 是统计量
    1. min {X1, ⋯, X5}
    • 只与样本值有关
    • 是统计量
    1. $\frac{X_1}{p}$
    • 含有未知参数p
    • 不是统计量
    1. (X5 − X1)2
    • 仅依赖样本值
    • 是统计量
  3. 样本观测值为(0, 1, 0, 1, 1),样本的均值为 $$ \bar{x} = \frac{1}{5}\sum_{i=1}^5 x_i = \frac{0+1+0+1+1}{5} = \frac{3}{5} = 0.6 $$ 样本的方差为 $$ s^2 = \frac{1}{5-1}\left(\sum x_i^2 - 5\bar{x}^2\right) = \frac{1}{4}\left(3 - 5 \times 0.36\right) = \frac{1.2}{4} = 0.3 $$

问题2:

设总体 X ∼ N(μ, σ2),从中抽取样本 X1, X2

  1. 写出 (X1, X2) 的联合概率密度函数;
  2. 求样本均值 $\overline{X} = \frac{X_1 + X_2}{2}$ 的分布;
  3. 计算 $E(\overline{X})$$D(\overline{X})$
  4. μ = 1, σ2 = 4,求 $P(\overline{X} > 1.5)$

解答:

  1. 联合概率密度函数为 $$ f(x_1,x_2) = \prod_{i=1}^2 \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}} $$

  2. 样本均值的分布为 $$ \overline{X} \sim N\left(\mu, \frac{\sigma^2}{2}\right) $$

  3. $E(\overline{X})$$$ E(\overline{X}) = E(\frac{1}{n} \sum_{i = 1}^n X_i) = \frac{1}{n}EX_i = EX = \mu $$ $D(\overline{X})$$$ D(\overline{X}) = D(\frac{1}{n} \sum_{i = 1}^n X_i) = \frac{1}{n^2}D(\sum_{i = 1}^n X_i) = \frac{1}{n^2}\sum_{i = 1}^n DX_i = \frac{1}{n^2} .n\sigma^2 = \frac{\sigma^2}{n} $$

  4. μ = 1, σ2 = 4 时: $$ P(\overline{X} > 1.5) = 1 - \Phi\left(\frac{1.5-1}{\sqrt{2}}\right) \approx 1 - \Phi(0.3535) \approx 0.3618 $$

问题3:

设总体 X ∼ P(λ),从中抽取样本 X1, X2, X3

  1. 求样本总和 T = X1 + X2 + X3 的分布;
  2. 证明 $\overline{X}$λ 的无偏估计;
  3. 计算 $D(\overline{X})$
  4. λ = 2 时,求 $P(\overline{X} \leq 1.5)$

解答:

  1. 因为 X ∼ P(λ),所以有 $$ P(X = k) = \frac{\lambda ^k e^{- \lambda}}{k!} $$ 容易得到,样本的总和分布为 T ∼ P(3λ)

  2. 无偏性证明 $$ E(\overline X) = E\left(\frac{T}{3}\right) = \frac{3\lambda}{3} = \lambda $$

  3. 方差计算 $$ D(\overline{X}) = \frac{D(X)}{n} = \frac{\lambda}{3} $$

  4. λ = 2 时,T ∼ P(6)$$ P(\overline{X} \leq 1.5) = P(T \leq 4.5) = P(T \leq 4) \approx 0.2851 $$

大数定律

题目1:

X1, X2, …, Xn 为独立同分布的随机变量序列,E(Xi) = μD(Xi) = σ2 < ∞。则下列叙述正确的是:

A. $\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| \geq \epsilon\right) = 1$

B. $\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| < \epsilon\right) = 0$

C. $\lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| \geq \epsilon\right) = 0$

D. $\lim_{n \to \infty} \frac{1}{n}\sum_{i=1}^n X_i = \mu$ 几乎必然成立

正确答案:C

详细解析

  1. 切比雪夫大数定律的数学表述: $$ \lim_{n \to \infty} P\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| \geq \epsilon\right) = 0 $$ 这称为依概率收敛,对应选项C。

  2. 错误选项分析:

    • A:与定律结论相反
    • B:概率收敛到0应为收敛到1
    • D:描述的是强大数定律,需要更强条件

题目2:

X1, X2, …, X100 为独立同分布的泊松随机变量,Xi ∼ P(λ),则 $\sum_{i=1}^{100} X_i$ 的近似分布是:A

A. N(100λ, 100λ)

B. N(λ, λ)

C. P(100λ)

D. N(λ, λ/100)

  1. 泊松分布性质

    • E(Xi) = λ, D(Xi) = λ
    • 具有可加性:Xi ∼ P(nλ)
  2. 中心极限定理应用: 当 n = 100 较大时: $$ \sum_{i=1}^{100} X_i \approx N(n\lambda, n\lambda) = N(100\lambda, 100\lambda) $$

  3. 错误选项分析:

    • B:描述的是单个Xi的近似
    • C:精确分布非近似结果
    • D:混淆了样本均值的分布

问题3

X1, …, Xn 独立同分布,E(Xi) = 1, D(Xi) = 4。当 n 充分大时,P( ≤ 1.2) 的近似值为:

A. $\Phi(0.1\sqrt{n})$

B. $\Phi(0.2\sqrt{n})$

C. $1 - \Phi(0.1\sqrt{n})$

D. $\Phi(0.4\sqrt{n})$

详细解析

  1. 标准化样本均值$$ \bar{X} \approx N\left(1, \frac{4}{n}\right) \Rightarrow \frac{\bar{X}-1}{2/\sqrt{n}} \sim N(0,1) $$

  2. 概率计算$$ P(\bar{X} \leq 1.2) = P\left(\frac{\bar{X}-1}{2/\sqrt{n}} \leq \frac{0.2}{2/\sqrt{n}}\right) \approx \Phi(0.1\sqrt{n}) $$

  3. 错误选项分析

    • B:系数错误(应为0.1)
    • C:方向反了
    • D:方差系数错误

参数估计部分

点估计

问题1

tag:矩估计,最大似然估计,无偏性,有效性

X1, X2, …, Xn 是来自总体 X 的简单随机样本,总体概率密度函数为: $$ f(x;\theta) = \begin{cases} \theta x^{\theta-1}, & 0 < x < 1 \\ 0, & \text{其他} \end{cases} $$ 其中 θ > 0 为未知参数。

  1. θ 的矩估计量 θ̂1
  2. θ 的最大似然估计量 θ̂2
  3. 验证 θ̂1θ̂2 的无偏性,并比较它们的有效性。

解答

  1. 矩估计:

    • 计算总体矩 $$ \begin{align*} E(X) & = \int_0^1 x \cdot \theta x^{\theta-1} \, dx \\ & = \int_0^1 \theta x^{\theta} \, dx \\ & = \theta \int_0^1 x^{\theta} \, dx \\ & = \theta \cdot \left. \frac{x^{\theta + 1}}{\theta + 1} \right|_0^1 \\ & = \theta \cdot \left( \frac{1^{\theta + 1}}{\theta + 1} - \frac{0^{\theta + 1}}{\theta + 1} \right) \\ & = \theta \cdot \frac{1}{\theta + 1} \\ & = \frac{\theta}{\theta + 1} \end{align*} $$

    • 令样本矩等于总体矩: $$ \bar{X} = \frac{\theta}{\theta+1} $$

    • 解得 $$ \hat{\theta}_1 = \frac{\bar{X}}{1-\bar{X}} $$

  2. 最大似然估计量

    • 似然函数 $$ L(\theta) = \prod_{i=1}^n \theta X_i^{\theta-1} = \theta^n \left(\prod_{i=1}^n X_i\right)^{\theta-1} $$

    • 取对数 $$ \ln L(\theta) = n\ln\theta + (\theta-1)\sum_{i=1}^n \ln X_i $$

    • 两边求导得到 $$ \frac{d}{d\theta}\ln L(\theta) = \frac{n}{\theta} + \sum_{i=1}^n \ln X_i = 0 $$

    • 解得最大似然估计量θ̂2$$ \hat{\theta}_2 = -\frac{n}{\sum_{i=1}^n \ln X_i} $$

  3. 无偏性与有效性

    • 矩估计量的无偏性
      • 计算$E(\hat{\theta}_1) = E\left(\frac{\bar{X}}{1-\bar{X}}\right)$
      • 由于 $\bar{X} = \frac{1}{n}\sum X_i$,且 Xi ∼ f(x; θ)
      • 通过泰勒展开或直接计算可得 $E(\hat{\theta}_1) \approx \theta + \frac{\theta+1}{n}$(当 n 较大时)
      • 结论:θ̂1 是渐近无偏的,但对有限样本是有偏的
    • 最大似然估计的无偏性
      • Yi = −ln Xi,则 Yi 服从指数分布 Exp(θ)
      • θ̂2 = n/∑Yi 是倒指数分布参数的估计
      • 已知 $E(\hat{\theta}_2) = \frac{n}{n-1}\theta \neq \theta$(当 n > 1
      • 结论:θ̂2 是有偏估计
    • 有效性比较

问题2:

X1, X2, …, Xn 是来自泊松分布 P(λ) 的简单随机样本,其中 λ > 0 为未知参数。

  1. (矩估计)λ 的矩估计量 λ̂1
  2. (最大似然估计)λ 的最大似然估计量 λ̂2
  3. (无偏性与有效性)$T = \frac{1}{n}\sum_{i=1}^n X_i^2 - \bar{X}$,证明 Tλ2 的无偏估计,并讨论其有效性。

解答:

  1. 矩估计
    • X ∼ P(λ),所以 $X = \frac{e^{-\lambda}\lambda^{X}}{X!}$
    • 由于是泊松分布,所以 E(X) = λ,直接得 λ̂1 = 
  2. 最大似然估计
    • 似然函数:$L(\lambda) = \prod_{i=1}^n \frac{e^{-\lambda}\lambda^{X_i}}{X_i!}$
    • 对数似然函数:$\ln L(\lambda) = -n\lambda + \ln\lambda \sum_{i=1}^n X_i - \sum_{i=1}^n \ln(X_i!)$
    • 求导得:$\frac{d}{d\lambda}\ln L(\lambda) = -n + \frac{1}{\lambda}\sum_{i=1}^n X_i = 0$
    • 解得:λ̂2 = 
  3. 无偏性与有效性
    • 无偏性证明
      • 已知泊松分布 E(Xi) = λ, Var(Xi) = λ
      • E(Xi2) = Var(Xi) + [E(Xi)]2 = λ + λ2
      • $E(T) = \frac{1}{n}\sum E(X_i^2) - E(\bar{X}) = (\lambda + \lambda^2) - \lambda = \lambda^2$
      • 结论:Tλ2 的无偏估计
    • 有效性分析
      • 计算 $\text{Var}(T) = \text{Var}\left(\frac{1}{n}\sum X_i^2 - \bar{X}\right)$
      • 展开得 $\text{Var}(T) = \frac{1}{n^2}\sum\text{Var}(X_i^2) + \text{Var}(\bar{X}) - \frac{2}{n}\text{Cov}(\sum X_i^2, \bar{X})$
      • 对于泊松分布,Var(Xi2) = E(Xi4) − [E(Xi2)]2 = λ + 7λ2 + 6λ3 + λ4 − (λ + λ2)2
      • 计算得 $\text{Var}(T) = \frac{4\lambda^3 + 6\lambda^2 + \lambda}{n} + O(\frac{1}{n^2})$
      • 与 C-R 下界比较(需先求 λ2 的 Fisher 信息)
      • 结论:Tλ2 的有效估计(达到 C-R 下界)

问题3

X1, X2, …, Xn 是来自总体 X 的简单随机样本,总体服从参数为 θ 的指数分布,其概率密度函数为: $$ f(x;\theta) = \begin{cases} \theta e^{-\theta x}, & x > 0 \\ 0, & x \leq 0 \end{cases} $$ 其中 θ > 0 为未知参数。

考虑以下两个估计量: 1. $\hat{\theta}_1 = \frac{1}{\bar{X}}$,其中 $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$ 2. $\hat{\theta}_2 = \frac{n-1}{\sum_{i=1}^n X_i}$

请完成: 1. 验证 θ̂1θ̂2 的无偏性; 2. 比较两个估计量的有效性; 3. 讨论哪个估计量更优,并说明理由。

解答:

  1. 无偏性验证

    对于θ̂1

    • 已知$\sum_{i=1}^n X_i \sim Gamma(n, \theta)$,其概率密度函数为: $$ f_Y(y) = \frac{\theta^n y^{n-1} e^{-\theta y}}{\Gamma(n)}, \quad y > 0 $$

    • 计算 $E\left[\frac{1}{\bar{X}}\right] = E\left[\frac{n}{\sum X_i}\right] = n E\left[\frac{1}{Y}\right]$,其中 Y = ∑Xi

    • 计算积分 $$ E\left[\frac{1}{Y}\right] = \int_0^\infty \frac{1}{y} \cdot \frac{\theta^n y^{n-1} e^{-\theta y}}{\Gamma(n)} dy = \frac{\theta^n}{\Gamma(n)} \int_0^\infty y^{n-2} e^{-\theta y} dy $$

      利用 Gamma 积分: $$ \int_0^\infty y^{n-2} e^{-\theta y} dy = \frac{\Gamma(n-1)}{\theta^{n-1}} \quad (n > 1) $$

    • 因此: $$ E\left[\frac{1}{Y}\right] = \frac{\theta^n}{\Gamma(n)} \cdot \frac{\Gamma(n-1)}{\theta^{n-1}} = \frac{\theta}{n-1} $$

    • 最终: $$ E[\hat{\theta}_1] = n \cdot \frac{\theta}{n-1} = \frac{n}{n-1}\theta \neq \theta $$

    • 结论θ̂1 是有偏估计。

    对于θ2:

    • 类似地计算: $$ E[\hat{\theta}_2] = (n-1) E\left[\frac{1}{Y}\right] = (n-1) \cdot \frac{\theta}{n-1} = \theta $$

    • 结论θ̂2 是无偏估计。

  2. 有效性比较

    计算方差

对于 θ̂1 - 计算 $E\left[\frac{1}{Y^2}\right]$$$ E\left[\frac{1}{Y^2}\right] = \int_0^\infty \frac{1}{y^2} \cdot \frac{\theta^n y^{n-1} e^{-\theta y}}{\Gamma(n)} dy = \frac{\theta^n}{\Gamma(n)} \int_0^\infty y^{n-3} e^{-\theta y} dy = \frac{\theta^n}{\Gamma(n)} \cdot \frac{\Gamma(n-2)}{\theta^{n-2}} = \frac{\theta^2}{(n-1)(n-2)} \quad (n > 2) $$ - 因此: $$ \text{Var}\left(\frac{1}{Y}\right) = E\left[\frac{1}{Y^2}\right] - \left(E\left[\frac{1}{Y}\right]\right)^2 = \frac{\theta^2}{(n-1)(n-2)} - \frac{\theta^2}{(n-1)^2} = \frac{\theta^2}{(n-1)^2(n-2)} $$ - 最终: $$\text{Var}(\hat{\theta}_1) = n^2 \cdot \text{Var}\left(\frac{1}{Y}\right) = \frac{n^2 \theta^2}{(n-1)^2(n-2)}$$

对于 θ̂2

$$ \text{Var}(\hat{\theta}_2) = (n-1)^2 \cdot \text{Var}\left(\frac{1}{Y}\right) = \frac{(n-1)^2 \theta^2}{(n-1)^2(n-2)} = \frac{\theta^2}{n-2} $$

比较方差:

  • n > 2 时: $$ \text{Var}(\hat{\theta}_2) = (n-1)^2 \cdot \text{Var}\left(\frac{1}{Y}\right) = \frac{(n-1)^2 \theta^2}{(n-1)^2(n-2)} = \frac{\theta^2}{n-2} $$
  1. 结论

    • 无偏性θ̂2 是无偏估计,θ̂1 是有偏估计;

    • 有效性θ̂2 的方差更小;

    • 最优估计θ̂2 在无偏性和有效性两方面都优于 θ̂1,因此是更优的估计量。

      补充说明

      • 虽然 θ̂1 是有偏的,但当 n → ∞ 时,E[θ̂1] → θ,称为渐近无偏;
      • θ̂2 达到了 Cramer-Rao 下界,是最小方差无偏估计 (UMVUE)。

区间估计

题目1

设某厂生产的零件长度服从正态分布 N(μ, σ2),其中 σ2 未知。现随机抽取16个零件,测得样本均值  = 20.5 cm,样本标准差 s = 1.2 cm。求:

  1. 总体均值 μ 的95%置信区间;
  2. 总体方差 σ2 的90%置信区间。

解答:

  1. 总体均值 μ 的95%置信区间

    • 确定统计量

      当总体方差未知的时候,使用t统计量 $$ T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1) $$

    • 确定置信水平

      置信水平 1 − α = 95%,故 α = 0.05

    • 查表

      自由度 df = n − 1 = 15,查 t 分布表得: tα/2(15) = t0.025(15) = 2.131

    • 计算置信区间

      置信区间公式 $$ \left[ \bar{x} - t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}}, \bar{x} + t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}} \right] $$

    • 代入数值 $$ \left[ 20.5 - 2.131 \times \frac{1.2}{\sqrt{16}}, 20.5 + 2.131 \times \frac{1.2}{\sqrt{16}} \right] = [19.86, 21.14] $$

    • 结论

      σ2 的90%置信区间为 [0.864, 2.975] cm2

  2. 总体方差 σ2 的90%置信区间

    • 确定统计量

      总体均值已知,估计总体方差 $$ \chi^2 = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) $$

    • 确定置信水平

      置信水平 1 − α = 90%,故 α = 0.10

      • 查表 自由度 df = n − 1 = 15,查 χ2 分布表得: $$ \chi^2_{1-\alpha/2}(15) = \chi^2_{0.95}(15) = 7.261 \\ \chi^2_{\alpha/2}(15) = \chi^2_{0.05}(15) = 24.996 $$
    • 计算置信区间 $$ \left[ \frac{(n-1)s^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2}(n-1)} \right] $$

      估计总体方差,总体均值已知未知都是这个式子

    • 代入数值: $$ \left[ \frac{15 \times 1.2^2}{24.996}, \frac{15 \times 1.2^2}{7.261} \right] = \left[ \frac{21.6}{24.996}, \frac{21.6}{7.261} \right] = [0.864, 2.975] $$

    • 结论

      σ2 的90%置信区间为 [0.864, 2.975] cm2