CNN

VGG

核心思想

  • 网络越深越好;
  • 但网络深不好训练->用3*3的卷积核;

核心结构:

  • 两个连续的3×3卷积相当于5×5的感受野,3个相当于7*7:

  • 减少了参数,有更多的relu层,增加了更多的非线性;

输入及预处理

  • 输入:224*224
  • 预处理:除以255或者减去128(即精度定点,因为arm等平台计算浮点数计算量较大,而减去128之后数据就是unit8的形式了)

训练:

SGD+momentum(0.9)

  • batch size:256
  • L2正则化,weight decay是5e-4;
  • dropout在前两个全连接层后,keep——prob=0.5;

实验结果

  • LRN没啥用;
  • 分类误差随深度增加而降低;
    图像尺度抖动、多尺度评估;
  • multi-crop评估比dense评估,效果更好(数据增强);