YOLOv2论文笔记

YOLO9000: Better, Faster, Stronger

文章分为两个部分,第一个部分是对YOLO v1的改进,第二部分是Stronger

1 关键词

  • 实时目标检测
  • k-means 聚类分析
  • 多尺度训练
  • WordNet
  • Res

2 想解决的问题

主要是想解决YOLOv1的一些问题

  • YOLOv1只能输入相同尺寸的图像

  • YOLOv1的定位误差比较大

  • 当时的检测数据集里面的类别比较少

3 解决的思路

  • 针对相同尺寸的问题:

    使用多尺度训练的方式

    训练时要先用ImageNet数据集来做前面主题网络的训练,将分类精度训练上去了前几层的特征提取工作就算做的比较可以了,之前很多网络最后都会用FC(全连接层),使用全连接层要求全连接层的输入长度是一样的,那就要求卷积和池化之后的输出大小是一样的,所以想要使用FC层,就需要图片尺寸大小一样,或者需要卷积池化之类的动态变化,显然后面这个不是很好办,所以作者想到的办法就是不用FC层,使用一个全局年平均层来替代FC层(这里不引入新的参数的)

    比如输入是416x416,经过层层卷积池化之后变成了13x13x1024,然后再通过1x1x1000的卷积层,得到13x13x1000,对这个做全局平均池化,也就是将这每个通道做一个平均,得到1000个数字,对应ImageNet中的1000个类别,再通过Softmax,此时前面的分类网络就可以训练了

    这个网络训练好了之后,去掉那个1000通道的卷积层以及之后的层,剩下的通过卷积层再结合一个passthrough层就得到了最终的网络结构,在这个网络上训练检测网络即可。

    这里的passthrough层是从之前的细粒度比较高的特征图引出来的

    image-20211118214736306

    image-20211118214944225

    这张图是怎么把高细粒度的特征图凑成低细粒度的特征图,然后做拼接

    下面这张图是网路的结构图

    image-20211118215202387

    上面这些图部分来自知乎,部分来自同济子豪兄的视频

    这样在训练时网络能够适应不同尺寸输入,网络也就具备了预测不同尺寸图片的问题

  • 定位误差的问题

    • 首先不让bbox中心点可以乱跑,将其限制在grid cell中,这个还是比较好理解的

    • 引入了Anchor机制,刚刚引入Anchor时精度会下降,但是Recall能增加(所谓Anchor就是事先约定好的bbox的形状尺寸)

      并对COCO和VOC数据集进行了k-means聚类分析,选择了5个bbox比较好

  • 速度提升

    • 使用Darknet19结构,提升了速度

    • YOLOv1是直接在224x224上先训练好了分类网络,然后再扩大448x448上训练检测网

      YOLOv2是先在224x224上训练一会分类网,然后变成448x448训练一会分类网,训练好之后再训练检测网

      这里真的不懂了,不是说多尺度训练吗?迷惑行为

  • Stronger: 如何检测更多类别

    • 提出了一个WordNet的结构
      • ImageNet的类别是互斥的,这个东西是违背人类的本性的,人类并不一定可以分出各种狗的区别,只知道是狗,但是ImageNet的类别互斥,经过softmax之后简直反人类,所以使用树形结构显然是更加合理的
    • 训练时对于来自分类数据集的数据只会影响类别损失函数,来自检测数据集的数据会影响整个损失函数
  • 其他的一些技术

    • Batch Normalization
    • 避免过拟合使用了正则化、BN的方法,YOLOv1使用的是dropout和数据增强来避免过拟合

4 思考

这篇文章读起来还是比较舒服的,没有太多令人迷惑的地方

  • YOLO9000部分的原理不是特别理解,虽然这个方法不是很常用了,但是感觉还是有意义的

  • 多尺度训练和那些size到底是啥意思?

    如果是多尺度训练,那显然就有了大尺寸图片的信息,那为啥要单独说出来高分辨率训练呢?文章读起来很迷惑

  • 在做聚类分析时,质心时咋求出来的?

5 贡献

  • 提出了一种融合数据集的方式,很具有启发性
  • 给出了一种选择Anchor的方式,很具有启发性
  • 给出了一种针对不同尺寸输入的方法,也比较具有启发性

6 不足

  • 我觉得那个损失函数的置信度的label还是用的IOU,这个是不是不太好啊?
  • 9000个类别的训练出来的精度应该也不是很高
  • 对小尺寸和密集目标的效果还不是很好

7 For me

  • Anchor的作用以及局限性
  • 卷积和maxpool对尺寸没有限制的,不像全连接层

8 References

9 Other works

  • © 2019-2022 Wendell
  • Powered by Hexo Theme Ayer

请我喝杯咖啡吧~

支付宝
微信