描述

VGG architecture

  • VGG 由牛津大学视觉几何组(Visual Geometry Group)提出,在 ILSVRC 2014 中以微弱的劣势败给了 GoogleNet,但是因为其网络构建策略简单规律又容易拓展,被广泛地使用。
  • 上图展示了不同深度的 VGG(分别为 11 层、13 层、16 层、19 层),出于对性能与效率的考量,VGG16 后来称为该系列最为流行的模型。
  • VGG 的一些实践被后来者广泛使用,这些实践几乎成为了后来的 CNN 标配,例如
    • Padding 为 $1$ 的 $3 \times 3$ 卷积操作,代替 AlexNet 中的 $5 \times 5$、$7 \times 7$ 卷积等等;
    • 长宽减小一半的同时通道翻倍。
  • VGG 对于网络深度的探索也拉开了「CNN 拼深度」的帷幕。由于网络堆叠策略比较简单粗暴,其参数量与计算量都比较大,参数量主要集中在最后的 fc 层,而计算量则集中在前面的 conv 层

参考