对书上证明样本方差是总体方差的无偏估计量的解析

问题描述

设总体服从区间 [0, θ] 上的均匀分布，(X₁, X₂, ⋯, X_n) 为取自该总体的容量为 n 的样本。对未知参数 θ 的两个估计量：

$$ \hat{\theta}_1 = 2\bar{X}, \quad \hat{\theta}_2 = \frac{n+1}{n} \max_{1 \leq i \leq n} \{ X_i \}. $$

验证 θ̂₁ 和 θ̂₂ 均为 θ 的无偏估计；
指出哪个更有效。

(1) 验证无偏性

1.1 验证 θ̂₁ = 2X̄ 的无偏性

步骤 1：计算总体均值
- 总体 $ X U[0, ] ，其期望为：$ E(X) = = $$
- 所以对于总体 X ∼ U[0, θ]，有 $E(X) = \frac{\theta}{2}$。
步骤 2：计算样本均值的期望
- 样本均值 $\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i$，其期望为：

$$ E(\bar{X}) = \frac{1}{n} \sum_{i=1}^{n} E(X_i) = \frac{1}{n} \cdot n \cdot \frac{\theta}{2} = \frac{\theta}{2}. $$

步骤 3：计算 θ̂₁ 的期望：
- 由题意，θ̂₁ = 2X̄，因此
$$ E(\hat{\theta}_1) = 2E(\bar{X}) = 2 \cdot \frac{\theta}{2} = \theta. $$
- 这表明 θ̂₁ 是 θ 的无偏估计。

1.2 验证 $\hat{\theta}_2 = \frac{n+1}{n} X_{(n)}$ 的无偏性

可知，X_(n) = max_{1 ≤ i ≤ n}{X_i} 是样本的最大次序统计量。
- 背景知识：
  - 次序统计量：对于样本 X1, X2, …, XnX1, X2, …, Xn，将其按从小到大排列为 X(1) ≤ X(2) ≤ … ≤ X(n)X(1) ≤ X(2) ≤ … ≤ X(n)，其中 X(n) = max⁡XiX(n) = maxXi。
  - 均匀分布性质：Xi ∼ U[0, θ]Xi ∼ U[0, θ]，其累积分布函数（CDF）为 $F_{X}(x)= \frac xθ$ （当$ 0≤x≤θ$）。
步骤 1：推导最大次序统计量 X(n) 的密度函数
- 每个样本X_i 的累积分布函数（CDF）为：
  - $$ F_X(x) = \begin{cases} 0, & x < 0, \\ \frac{x}{\theta}, & 0 \leq x \leq \theta, \\ 1, & x > \theta. \end{cases} $$
- 最大值 X(n) = maxX1, X2, …, Xn 的 CDF 为：
  - $$ F_{X_{(n)}}(x) = P(X_{(n)} \leq x) = [F_X(x)]^n = \left(\frac{x}{\theta}\right)^n \quad (0 \leq x \leq \theta). $$
- 对 CDF 求导得到概率密度函数（PDF）：
  - $$ f_{X_{(n)}}(x) = \frac{d}{dx} F_{X_{(n)}}(x) = \frac{n x^{n-1}}{\theta^n} \quad (0 \leq x \leq \theta). $$
- 所以，X_(n) 的概率密度函数（PDF）为：
$$ f_{X_{(n)}}(x) = \frac{n x^{n-1}}{\theta^n}, \quad 0 \leq x \leq \theta. $$
步骤 2：计算 E(X_(n)) $$ \begin{aligned} E(X_{(n)}) &= \int_{0}^{\theta} x \cdot \frac{n x^{n-1}}{\theta^n} \, dx \\ &= \frac{n}{\theta^n} \int_{0}^{\theta} x^n \, dx \\ &= \frac{n}{\theta^n} \left[ \frac{x^{n+1}}{n+1} \bigg|_{0}^{\theta} \right] \\ &= \frac{n}{\theta^n} \cdot \frac{\theta^{n+1}}{n+1} \\ &= \frac{n}{n+1} \theta. \end{aligned} $$
步骤 3：计算 θ̂₂ 的期望

由题意可知$\quad \hat{\theta}_2 = \frac{n+1}{n} \max_{1 \leq i \leq n} \{ X_i \}.$ $$ E(\hat{\theta}_2) = \frac{n+1}{n} E(X_{(n)}) = \frac{n+1}{n} \cdot \frac{n}{n+1} \theta = \theta. $$ 这表明 θ̂₂ 也是 θ 的无偏估计。

(2) 比较有效性

估计量的有效性通过方差衡量：方差越小，估计量越有效。

2.1 计算θ̂₁的方差 D(θ̂₁)

步骤 1：总体方差 均匀分布的方差为：(均匀分布的性质) $$ D(X) = \frac{(\theta - 0)^2}{12} = \frac{\theta^2}{12}. $$
步骤 2：样本均值的方差

$$ D(\bar{X}) = \frac{D(X)}{n} = \frac{\theta^2}{12n}. $$

步骤 3：θ̂₁ 的方差： $$ D(\hat{\theta}_1) = 4 D(\bar{X}) = 4 \cdot \frac{\theta^2}{12n} = \frac{\theta^2}{3n}. $$

2.2 计算 D(θ̂₂)

方差的定义

对于任何随机变量 Y，其方差为： D(Y) = E(Y²) − [E(Y)]² 因此，计算 D(X_(n)) 需要：

计算 E(X_(n)) 一阶矩）。
计算 E(X_(n)²) （二阶矩）。

首先计算 E(X_(n)²)： $$ \begin{aligned}E(X_{(n)}^2) &= \int_{0}^{\theta} x^2 \cdot \frac{n x^{n-1}}{\theta^n} \, dx \\&= \frac{n}{\theta^n} \int_{0}^{\theta} x^{n+1} \, dx \\&= \frac{n}{\theta^n} \left[ \frac{x^{n+2}}{n+2} \bigg|_{0}^{\theta} \right] \\&= \frac{n}{\theta^n} \cdot \frac{\theta^{n+2}}{n+2} \\&= \frac{n}{n+2} \theta^2.\end{aligned} $$ 详细的过程

利用 PDF f_{X_(n)}(x)： $$ E(X_{(n)}) = \int_{0}^{\theta} x \cdot f_{X_{(n)}}(x) \, dx = \int_{0}^{\theta} x \cdot \frac{n x^{n-1}}{\theta^n} \, dx = \frac{n}{\theta^n} \int_{0}^{\theta} x^n \, dx. $$ 积分结果： $$ E(X_{(n)}) = \frac{n}{\theta^n} \cdot \left. \frac{x^{n+1}}{n+1} \right|_{0}^{\theta} = \frac{n}{n+1} \theta. $$ 类似地 $$ E(X_{(n)}^2) = \int_{0}^{\theta} x^2 \cdot f_{X_{(n)}}(x) \, dx = \int_{0}^{\theta} x^2 \cdot \frac{n x^{n-1}}{\theta^n} \, dx = \frac{n}{\theta^n} \int_{0}^{\theta} x^{n+1} \, dx. $$ 积分结果 $$ E(X_{(n)}^2) = \frac{n}{\theta^n} \cdot \left. \frac{x^{n+2}}{n+2} \right|_{0}^{\theta} = \frac{n}{n+2} \theta^2. $$
然后计算方差 D(X_(n))： $$ \begin{aligned}D(X_{(n)}) &= E(X_{(n)}^2) - [E(X_{(n)})]^2 \\&= \frac{n}{n+2} \theta^2 - \left( \frac{n}{n+1} \theta \right)^2 \\&= \theta^2 \left( \frac{n}{n+2} - \frac{n^2}{(n+1)^2} \right) \\&= \theta^2 \cdot \frac{n(n+1)^2 - n^2(n+2)}{(n+2)(n+1)^2} \\&= \theta^2 \cdot \frac{n(n^2 + 2n + 1) - n^3 - 2n^2}{(n+2)(n+1)^2} \\&= \theta^2 \cdot \frac{n^3 + 2n^2 + n - n^3 - 2n^2}{(n+2)(n+1)^2} \\&= \theta^2 \cdot \frac{n}{(n+2)(n+1)^2}.\end{aligned} $$
因此： $$ D(\hat{\theta}_2) = \left( \frac{n+1}{n} \right)^2 D(X_{(n)}) = \frac{(n+1)^2}{n^2} \cdot \frac{n \theta^2}{(n+2)(n+1)^2} = \frac{\theta^2}{n(n+2)}. $$
其中
- 最大值的分布需要考虑所有样本不超过某个值的联合概率，因此 CDF 是单个 CDF 的 n 次方。
- 最大值的 PDF：因为所有样本必须小于等于 x，且其中一个样本“支撑”在 x 附近
- PDF 是 CDF 的导数，直接反映了概率密度的变化率。

2.3 比较 D(θ̂₁) 和 D(θ̂₂)

θ̂₁方差 $$ D(\hat{\theta}_1) = \frac{\theta^2}{3n} $$
θ̂₂方差 $$ D(\hat{\theta}_2) = \frac{\theta^2}{n(n+2)} $$
对于 n ≥ 2，有 n(n + 2) > 3n
- 因为 n² + 2n > 3n 即 n² − n > 0 对 n ≥ 2 成立，且 n = 1 时 1 ⋅ 3 = 3 等于 3 ⋅ 1 = 3。
因此： $$ \frac{\theta^2}{n(n+2)} < \frac{\theta^2}{3n}, \quad \text{当} \ n \geq 2. $$ 对于 n = 1，两者方差相等： $$ D(\hat{\theta}_1) = \frac{\theta^2}{3}, \quad D(\hat{\theta}_2) = \frac{\theta^2}{3}. $$