样本方差

对于随机变量 $X$,其期望为 $\mu$,方差 $\sigma^2 = \operatorname{E}[(X-\mu)^2]$。

然而在实践中,我们往往不知道 $X$ 的真实分布,因此常常基于 采样的样本 对其进行近似。

具体来说,对于期望 $\mu$,我们用样本均值 $\bar{X}$ 来近似: $$ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i $$ 对于方差 $\sigma^2$,我们用样本方差 $S^2$ 来近似: $$ S^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \mu)^2 $$ 但是在该式中,期望 $\mu$ 也是未知的,所以我们用前面计算的样本均值 $\bar{X}$ 来进一步近似: $$ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 $$ 那么问题就来了,为什么用 $\bar{X}$ 代替 $\mu$ 之后,分母从 $n$ 变成了 $n - 1$?

推导

这节我们来计算一下如果用 $\bar{X}$ 代替 $\mu$,那么算出来的 $E[S^2]$ 与 $E[\sigma^2]$ 的关系。

先推两个待会要用到的式子: $$ \begin{aligned} \bar{X} - \mu &= \frac{1}{n}\sum_{i=1}^n X_i - \mu \\ &= \frac{1}{n}\sum_{i=1}^n X_i - \frac{1}{n}\sum_{i=1}^n \mu \\ &= \frac{1}{n}\sum_{i=1}^n (X_i - \mu) \\ \end{aligned} $$

$$ \begin{aligned} \operatorname{E}(\bar{X} - \mu)^2 &= \operatorname{D} [\bar{X}] \\ &= \frac{1}{n^2} \operatorname{D} \left[ \frac{\sum_{i=1}^n X_i}{n} \right] \\ &= \frac{1}{n^2} \sum_{i=1}^n \operatorname{D}[X_i] \\ &= \frac{1}{n^2} \cdot n \sigma^2 \\ &= \frac{\sigma^2}{n} \end{aligned} $$

$\operatorname{E}[S^2]$ 推导如下: $$ \begin{aligned} \operatorname{E}[S^2 ] &=\operatorname{E}\left[ \frac{1}{n} \sum_{i=1}^n (X_i-\bar{X})^2 \right] \\ &=\operatorname{E}\left[ \frac{1}{n} \sum_{i=1}^n ((X_i-\mu) - (\bar{X}-\mu))^2 \right] \\ &=\operatorname{E}\left[ \frac{1}{n} \sum_{i=1}^n ((X_i-\mu)^2 - 2(\bar{X}-\mu) (X_i -\mu) + (\bar{X}-\mu)^2) \right] \\ &=\operatorname{E}\left[ \frac{1}{n} \sum_{i=1}^n (X_i -\mu)^2 - \frac{2}{n} (\bar{X}-\mu) \sum_{i=1}^n (X_i-\mu) + \frac{1}{n}(\bar{X}-\mu)^2 \sum_{i=1}^n 1 \right] \\ &=\operatorname{E}\left[ \frac{1}{n} \sum_{i=1}^n (X_i -\mu)^2 -\frac{2}{n} (\bar{X}-\mu) \cdot n (\bar{X}-\mu) + (\bar{X}-\mu)^2 \right] \\ &=\operatorname{E}\left[ \frac{1}{n} \sum_{i=1}^n (X_i -\mu)^2 - (\bar{X}-\mu)^2 \right] \\ &=\operatorname{E}\left[\frac{1}{n} \sum_{i=1}^n (X_i -\mu)^2\right] - E[(\bar{X}-\mu)^2] \\ &= \sigma^2 - \frac{1}{n}\sigma^2 \\ &= \frac{n - 1}{n} \sigma^2 \\ \end{aligned} $$

因此,我们真正要估计的方差 $\sigma^2$ 需经过一些调整: $$ \begin{aligned} \sigma^2 &= \frac{n}{n - 1} E[S^2] \\ &= \frac{n}{n - 1} (\frac{1}{n} \sum_{i=1}^n (X_i-\bar{X})^2) \\ &= \frac{1}{n - 1} \sum_{i=1}^n (X_i-\bar{X})^2 \\ \end{aligned} $$ 这就是我们常说的 无偏估计

从自由度的角度

(本节是根据个人理解对 张英锋:为什么样本方差(sample variance)的分母是 n-1? 的重新演绎。)

为什么会出现这种情况?虽然从公式上可以得到以上结果,但是从直观上理解是有点奇怪的。明明算的是 $n$ 个数,最后却是除以 $n-1$ ?究竟是什么导致的?

我们尝试从 自由度 的角度来解释。所谓自由度,指的是「独立客观」的维度,是衡量样本之间独立的重要指标。当采样的数据存在「关联」时,这些数据的独立性下降,自由度降低,因此统计的统计量存在 偏差

在计算数据方差的场景中,$n$ 是全体的数量,$\mu$ 是全体的均值,$\sigma^2$ 是全体的方差,这些都是客观存在的。

在我们对总体进行估计时,我们使用的只是基于部分样本($\ll n$),以均值 $\bar{X}$ 估计期望 $\mu$ 是无偏的(没有系统误差,只有随机误差)。但是我们用 $S^2$ 来估计方差 $\sigma^2$ 的时候,却不再是无偏的,原因在于 我们引入了均值 $\bar{X}$,这个均值是根据样本算出来的,我们使用它时,我们采样的样本之间就从「相互独立」变成了「依赖于总体的均值 $\bar{X}$」。举个具体例子,如果我们有 10 个样本跟他们的均值 $\bar{X}$,那么我们只要有 9 个样本就能够算出来第 10 个样本的值了,这意味着我们在计算 $S^2$ 时自由度(即独立性)减少了 1。

那么会有什么影响呢?当自由度变小的时候,基于这些样本算出来的的方差会偏小。因为方差是通过计算样本和平均值之间的距离,来描述样本的分散程度,数据之间差异越大,方差就越大;数据之间越是趋同,方差就越小。在自由度减小的时候,因为其中的某些数据「随波逐流」了,导致最终的数据趋同,从而使得计算的方差偏小。举个现实例子,某个专家组在打分的时候,某领导根据大家的评分取个折中评分(不独立,自由度减少),最终就会导致所有评分的方差偏小。

那么怎么解决这一偏差?就是将计算方差时的分母从 $n$ 改成 $n - 1$,从而校正自由度,这一做法被称为 贝塞尔校正(Bessel's Correction)。

参考