案例

先来看一个 学院招生的性别比例 的例子。

学院 A:

性别 录取 拒收 总数 录取比例
男生♂ 1 5 6 16.7%
女生♀ 5 10 15 33.3%
合计 6 15 21

学院 B:

性别 录取 拒收 总数 录取比例
男生♂ 20 5 25 80.0%
女生♀ 9 1 10 90.0%
合计 29 6 35

两个学院汇总:

性别 录取 拒收 总数 录取比例
男生♂ 21 10 31 67.7%
女生♀ 14 11 25 56.0%
合计 35 21 56

我们可以看到学院 A 与学院 B 招女生的录取比例都比招男生的比例高,但是汇总之后反而男生的录取比例比女生更高。问题出在什么地方?

分析

我们画一个简单的图表来可视化上面的数据。

如上图所示,横轴为学生总人数,纵轴为被录取人数,因此直线的斜率表示了录取比例。其中蓝色为男生,红色为女生,并且我们将学院 B 的录取情况拼接在学院 A 的录取情况之后,以表示增长曲线。从这个图中我们可以观察到以下现象:

  • 单独看学院 A 与学院 B 的录取情况,男生的录取率(斜率)确实都比女生低。
  • 但是进行总计拼接之后,男生的录取率(斜率)却比女生高。

其实原因在于:两个学院的录取率相差很大(A 的录取率远远低于 B),而男生大多报了 B(录取率较高),女生大多报了 A(录取率较低)

对于男生来说,因为大多报了 B,因此在录取率较低的 A 中被拒的人也很少,而在录取率较高的 B 中被录取的人数非常多,合计之后录取率就非常高。而女生却恰恰相反,在录取率较低的 A 中被拒的人数比较多,但是在录取率较高的 B 中被录取的人也比较少,合计之后总录取率就比较低。

再举个可能不太恰当的例子,设「① A 男录取率」、「② A 女录取率」、「③ B 男录取率」、「④ B 女录取率」分别为 1、2、3、4,并且将这 4 种情况的报名人数看做是「权重」N1、N2、N3、N4。那么我们可以认为当男生人数(N1 + N3)主要集中在 N3 而女生人数(N2 + N4)主要集中在 N2 时,男生录取率就可能反超女生录取率。

那么在这个例子的数据中,我们能得出「存在性别歧视」的结论吗?其实不能。我们只能说

  • 学院 B 的录取率远远大于 A;
  • 男生更多地报了学院 B,女生则更多地报了学院 A;
  • 女生报学院 A 跟 B 的录取率都比男生高。
  • 总计下来,男生的录取率反而更高。

启示

  • 对于分组数据,不能简单随便地合在一起分析,否则可能出现因为各个分组的数据分布不同(例如此例中的数据基数)而导致合并分析的结果不准确。
  • 对于已经组合的数据,如果数据的某个维度对统计的结果影响较大(例如此例中不同性别报考不同学院的比例相差巨大),那么应该将其分组之后进行分析,排除这一因素扰乱对完整数据的分析。
  • 真实世界的数据都是组合数据,会骗人的。

参考