YOLOv2论文笔记

2021-11-18

字数统计: 1.3k字 | 阅读时长≈ 4分钟

YOLO9000: Better, Faster, Stronger

文章分为两个部分，第一个部分是对YOLO v1的改进，第二部分是Stronger

1 关键词

实时目标检测
k-means 聚类分析
多尺度训练
WordNet
Res

2 想解决的问题

主要是想解决YOLOv1的一些问题

YOLOv1只能输入相同尺寸的图像
YOLOv1的定位误差比较大
当时的检测数据集里面的类别比较少

3 解决的思路

针对相同尺寸的问题：

使用多尺度训练的方式

训练时要先用ImageNet数据集来做前面主题网络的训练，将分类精度训练上去了前几层的特征提取工作就算做的比较可以了，之前很多网络最后都会用FC(全连接层)，使用全连接层要求全连接层的输入长度是一样的，那就要求卷积和池化之后的输出大小是一样的，所以想要使用FC层，就需要图片尺寸大小一样，或者需要卷积池化之类的动态变化，显然后面这个不是很好办，所以作者想到的办法就是不用FC层，使用一个全局年平均层来替代FC层（这里不引入新的参数的）

比如输入是416x416，经过层层卷积池化之后变成了13x13x1024，然后再通过1x1x1000的卷积层，得到13x13x1000，对这个做全局平均池化，也就是将这每个通道做一个平均，得到1000个数字，对应ImageNet中的1000个类别，再通过Softmax，此时前面的分类网络就可以训练了

这个网络训练好了之后，去掉那个1000通道的卷积层以及之后的层，剩下的通过卷积层再结合一个passthrough层就得到了最终的网络结构，在这个网络上训练检测网络即可。

这里的passthrough层是从之前的细粒度比较高的特征图引出来的

这张图是怎么把高细粒度的特征图凑成低细粒度的特征图，然后做拼接

下面这张图是网路的结构图

上面这些图部分来自知乎，部分来自同济子豪兄的视频

这样在训练时网络能够适应不同尺寸输入，网络也就具备了预测不同尺寸图片的问题
定位误差的问题
- 首先不让bbox中心点可以乱跑，将其限制在grid cell中，这个还是比较好理解的
- 引入了Anchor机制，刚刚引入Anchor时精度会下降，但是Recall能增加（所谓Anchor就是事先约定好的bbox的形状尺寸）
  
  并对COCO和VOC数据集进行了k-means聚类分析，选择了5个bbox比较好
速度提升
- 使用Darknet19结构，提升了速度
- YOLOv1是直接在224x224上先训练好了分类网络，然后再扩大448x448上训练检测网
  
  YOLOv2是先在224x224上训练一会分类网，然后变成448x448训练一会分类网，训练好之后再训练检测网
  
  这里真的不懂了，不是说多尺度训练吗？迷惑行为
Stronger: 如何检测更多类别
- 提出了一个WordNet的结构
  - ImageNet的类别是互斥的，这个东西是违背人类的本性的，人类并不一定可以分出各种狗的区别，只知道是狗，但是ImageNet的类别互斥，经过softmax之后简直反人类，所以使用树形结构显然是更加合理的
- 训练时对于来自分类数据集的数据只会影响类别损失函数，来自检测数据集的数据会影响整个损失函数
其他的一些技术
- Batch Normalization
- 避免过拟合使用了正则化、BN的方法，YOLOv1使用的是dropout和数据增强来避免过拟合

4 思考

这篇文章读起来还是比较舒服的，没有太多令人迷惑的地方

YOLO9000部分的原理不是特别理解，虽然这个方法不是很常用了，但是感觉还是有意义的
多尺度训练和那些size到底是啥意思？

如果是多尺度训练，那显然就有了大尺寸图片的信息，那为啥要单独说出来高分辨率训练呢？文章读起来很迷惑
在做聚类分析时，质心时咋求出来的？

5 贡献

提出了一种融合数据集的方式，很具有启发性
给出了一种选择Anchor的方式，很具有启发性
给出了一种针对不同尺寸输入的方法，也比较具有启发性

6 不足

我觉得那个损失函数的置信度的label还是用的IOU，这个是不是不太好啊？
9000个类别的训练出来的精度应该也不是很高
对小尺寸和密集目标的效果还不是很好

7 For me

Anchor的作用以及局限性
卷积和maxpool对尺寸没有限制的，不像全连接层

YOLOv2论文笔记

1 关键词

2 想解决的问题

3 解决的思路

4 思考

5 贡献

6 不足

7 For me

8 References

9 Other works