期望

在概率论和统计学中,一个随机变量的 期望(Expectation)是试验中每次可能的结果乘以其结果概率的总和,它反映了 随机变量取值的平均大小

对于离散(Discrete)概率分布函数 $P(x)$,若其自变量的取值范围为 $\{x_1, x_2, \cdots, x_n\}$,那么其期望被定义为:

$$ \operatorname{E}[x]=\sum_{k=1}^n{x_kp(x_k)} $$

对于连续(Continuous)概率密度函数 $P(x)$,其期望被定义为:

$$ \operatorname{E}[x] = \int_{-\infty}^{+\infty}{xp(x)~dx} $$

设 $f(x)$ 为关于 $x$ 的函数,则 $f(x)$ 的期望为: $$ \begin{aligned} \operatorname{E}[f(x)] &= \sum_{k = 1}^n{f(x_k)p(x_k)} &\text{(离散)} \\ \operatorname{E}[f(x)] &= \int_{-\infty}^{+\infty}{f(x)p(x)~dx} &\text{(连续)} \\ \end{aligned} $$

期望具有如下性质:

  • $\operatorname{E}[aX + bY] = a\operatorname{E}[X] + b\operatorname{E}[Y]$,其中 $a$、$b$ 为任意实数。
  • $\operatorname{E}[X^2] = \operatorname{E}[X]^2 + \operatorname{D}[X]$,其中 $\operatorname{D}[X]$ 为随机变量 $X$ 的方差(推导过程见下面方差小节)。
  • 若 $X$ 与 $Y$ 相互独立,则有 $\operatorname{E}[XY] = \operatorname{E}[X] \operatorname{E}[Y]$。

方差

方差(Variance)描述了 随机变量离其期望值的距离,具体计算定义为: $$ \operatorname{D}[X] = \operatorname{E}[(X - \operatorname{E}[X])^2] $$

很容易可以推出方差的另一种表示:

$$ \begin{aligned} \operatorname{D}[X] &= \operatorname{E}[(X - \operatorname{E}[X])^2] \\ &= \operatorname{E}[X^2 - 2X\operatorname{E}[X] + \operatorname{E}[X]^2] \\ &= \operatorname{E}[X^2] - 2\operatorname{E}[X]\operatorname{E}[X] + \operatorname{E}[X]^2 \\ &= \operatorname{E}[X^2] - \operatorname{E}[X]^2 \\ \end{aligned} $$

方差具有如下性质:

  • $\operatorname{D}[X + C] = \operatorname{D}[X]$;
  • $\operatorname{D}[CX] = C^2 \operatorname{D}[X]$;
  • 若 $X$ 与 $Y$ 相互独立,则有 $\operatorname{D}[X \pm Y] = \operatorname{D}[X] + D(Y)$;
  • 若 $X$ 与 $Y$ 不相互独立,则有 $\operatorname{D}[X \pm Y] = \operatorname{D}[X] + \operatorname{D}(Y) \pm 2 \operatorname{Cov}[X, Y]$。
  • 若 $X$ 与 $Y$ 相互独立,则有 $\operatorname{D}[XY]$ 如下:

$$ \begin{aligned} \operatorname{D}[XY] &= \operatorname{E}[(XY)^2] - \operatorname{E}[XY]^2 \\ &= \operatorname{E}[X^2] E[Y^2] - \operatorname{E}[X]^2 \operatorname{E}[Y]^2 \\ &= (\operatorname{D}[X] + \operatorname{E}[X]^2) (\operatorname{D}[Y] + \operatorname{E}[Y]^2) - \operatorname{E}[X]^2 \operatorname{E}[Y]^2 \\ &= \operatorname{D}[X]\operatorname{D}[Y] + \operatorname{D}[X]\operatorname{E}[Y]^2 + \operatorname{D}[Y]\operatorname{E}[X]^2 \\ \end{aligned} $$

标准差

虽然方差已经描述了随机变量离其期望值的距离,但是毕竟多了一个平方操作,量纲(即单位)与 尺度 都与原来的变量不一致,因此 标准差(Standard Deviation)被引入。它是方差的算术平方根,同样描述了 随机变量离其期望值的距离: $$ \sigma[X] = \sqrt{\operatorname{D}[x]} $$

协方差

先直观理解一下 协方差(Covariance):对于两个变量 $X$、$Y$,这两个变量在变化过程中是同方向变化?还是反方向变化?同方向变化的话协方差就是正数,反方向变化协方差就是负数。变化的同向/异向程度越大,则协方差的数值越大。也就是说,协方差衡量了两个变量的同向变化的程度

协方差的具体定义为: $$ \begin{aligned} \operatorname{Cov}[X, Y] &= E((X - \operatorname{E}[X]) (Y - E[Y])) \\ \end{aligned} $$

同样可以推一下: $$ \begin{aligned} \operatorname{Cov}[X, Y] &= \operatorname{E}[(X - \operatorname{E}[X]) (Y - \operatorname{E}[Y])] \\ &= \operatorname{E}[XY - X\cdot E[Y] - Y \cdot \operatorname{E}[X] + \operatorname{E}[X]E[Y]] \\ &= \operatorname{E}[XY - \operatorname{E}[X]\operatorname{E}[Y]] \\ &= \operatorname{E}[XY] - \operatorname{E}[X]\operatorname{E}[Y] \\ \end{aligned} $$ 协方差有以下特点:

  • 当 $\operatorname{E}[XY] = \operatorname{E}[X] \operatorname{E}[Y]$ 时,$X$ 与 $Y$ 的协方差 $\operatorname{Cov}[X, Y] = 0$,又称它们 不相关
  • 当两个变量 $X$、$Y$ 相互独立 时,它们的协方差 $\operatorname{Cov}[X, Y] = 0$。

相关系数

通常情况下,我们所说的 相关系数(Correlation Coefficient)指的是 皮尔森相关系数(Pearson Product-moment Correlation Coefficient),其用于 度量两个变量 $X$ 与 $Y$ 之间的相关程度(线性相关!),其值介于 $[-1,1]$ 之间。其被定义为两个变量之间的协方差和标准差的商: $$ \rho[X,Y] = \frac{\operatorname{Cov}[X,Y]}{\sigma[X] \sigma[Y]} $$

参考