YOLOv3论文笔记

2021-11-19

字数统计: 711字 | 阅读时长≈ 2分钟

YOLOv3: An Incremental Improvement

YOLOv3的”技术报告“（TECH REPORT) ，这篇文章应该不是在顶会上发表的，甚至于不一定发表了。

关键词: 特征金字塔 FPN 残差连接

想解决的问题: 作者主要是对YOLOv2做了一些改进，针对小目标检测以及多物体检测

解决的思路: 针对不同尺度的目标，作者做了三个细粒度不同的特征图，每个特征图里的每个grid cell会给3个Anchor，共九个尺寸的Anchor，这九个尺寸也是根据聚类分析出来的，这样这个算法的小目标检测和多物体检测的效果会比较好

技术路线: 主要是针对YOLOv2做出一些改进

bbox预测：用的还是YOLOv2一样的表示方法，但是置信度标签终于不是IOU了，变成了非0即1了，使用IOU做置信度标签的缺点:
- 在实际使用中，IOU总是到0.7就不能继续向上了，这样网络不能学到更好了，如果我以1为目标，何乐而不为呢？
  
  在1 2代使用置信度也是有道理的，因为按照这个预测出来的框，确实应该用IOU表示置信度比较合理，因为你框都没准，你说这玩意的置信度是1你也不信啊，但是这样，网络就缺失了将置信度提升的动力了，感觉不太好权衡
  
  还有一种理解是，我的IOU是和预测框有关的，我把框预测准就完事了，我框准了，置信度可以达到1不是很合理嘛？
  
  其实感觉有点自欺欺人的感觉，置信度为1是建立在预测的准的情况下的，感觉这是个循环论证的问题了，我还没想到啥好的解释以及好的解决方法
- IOU是很敏感的，尤其对小物体
类别分类：不用softmax函数，因为softmax强行将类别互斥了，这个是反人类的，YOLO9000有提到这个，但是YOLOv2仅在训练9000网络时尝试解决这个问题，训练ImageNet1k时还是用的softmax的
多尺度预测：3个不同大小的feature map,这个很有启发性的

网络结构如下

上述两张图都来自网络，前者CSDN，后者来自知乎，都有水印
训练和YOLOv2差不多，用了多尺度图片训练，数据增强，BN等

思考: 这篇文章写的不是很清晰，有一个问题时loss function是啥

优势: 多尺度融合，这个能提取到更多的信息

不足: 论文写的不是很正式哈哈哈

For me：

Reference:

Other works