对抗过拟合

从数据角度

  • 收集更多数据
  • 数据增强
  • 减小输入数据的维度
  • 标签平滑
    • 例如将分类目标从 0、1 分别替换为 $\frac{epsilon}{k - 1}$、$1 - \epsilon$
    • 如果使用 0、1 标签可能是使得模型学到更加极端的预测结果,使其在最后经过 Cross Entropy 之后更接近 0、1

从模型角度

  • 减小模型的大小
    • 设计更小的模型
    • 模型稀疏化
    • 模型压缩

从优化角度

  • 减小 Batch size
    • 可以增加一定的随机性/抖动(Karpathy)
  • Regularization ✓
  • Batch Normalization ✓
  • Dropout ✓
    • 与 BN 一起用时可能不起作用
  • Early stop
  • 给模型权重加噪声
    • 鼓励模型学习参数到参数空间中更为稳定的区域

其他

  • 多任务学习
  • 预训练
  • 集成学习

参考