数据平衡的解决思路比较杂,以下一一列出以作参考。

  • 减少大类样本数
    • 降采样
    • 聚类,将相似样本聚成一个样本
  • 增加小类样本数
    • 过采样
    • 生成新样本
      • 样本插值:例如 SMOTE 算法
      • GAN 生成
  • 改变大类 / 小类的影响程度
    • 改变样本权重:控制训练过程中样本对损失函数的影响
  • 其他思路
    • 异常检测(Anomaly detection):视为异常检测问题,小类样本为异常样本。