点击率预估(CTR)

在点击率(Click Through Rate,CTR)预估任务中,点击率 $R$ 的计算如下:

$$ R = \frac{C}{I} $$

其中 $C$ 是点击量(Click),$I$ 是曝光量(Impression)。

在真实场景中,如果直接用该 CTR 来进行排序则会有一个严重的问题,即 新内容很难获得曝光,曝光不足会导致 CTR 不准,甚至点击率为 0,以此算出来的 CTR 不能反映该内容的真实情况。

因此 贝叶斯平滑 被引入该场景,以下先给出带贝叶斯平滑的 CTR 计算公式: $$ \begin{aligned} \hat{R} &= \frac{C + \alpha}{I + \alpha + \beta} \\ \alpha &= (\frac{\overline{R} (1 - \overline{R})}{S^2} - 1) \overline{R} \\ \beta &= (\frac{\overline{R} (1 - \overline{R})}{S^2} - 1) (1 - \overline{R}) \\ \end{aligned} $$ 其中 $\overline{R}$、$S^2$ 分别为点击率的均值、方差。

以该方式计算得到的结果是:每个新内容刚开始时都会得到一个接近平均水平的初始值,然后在不断获得曝光后不断地调节 CTR 计算以接近自己的真实水平