YOLOv3论文笔记

YOLOv3: An Incremental Improvement

YOLOv3的”技术报告“(TECH REPORT) ,这篇文章应该不是在顶会上发表的,甚至于不一定发表了。

关键词: 特征金字塔 FPN 残差连接

想解决的问题: 作者主要是对YOLOv2做了一些改进,针对小目标检测以及多物体检测

解决的思路: 针对不同尺度的目标,作者做了三个细粒度不同的特征图,每个特征图里的每个grid cell会给3个Anchor,共九个尺寸的Anchor,这九个尺寸也是根据聚类分析出来的,这样这个算法的小目标检测和多物体检测的效果会比较好

技术路线: 主要是针对YOLOv2做出一些改进

  • bbox预测:用的还是YOLOv2一样的表示方法,但是置信度标签终于不是IOU了,变成了非0即1了,使用IOU做置信度标签的缺点:

    • 在实际使用中,IOU总是到0.7就不能继续向上了,这样网络不能学到更好了,如果我以1为目标,何乐而不为呢?

      在1 2代使用置信度也是有道理的,因为按照这个预测出来的框,确实应该用IOU表示置信度比较合理,因为你框都没准,你说这玩意的置信度是1你也不信啊,但是这样,网络就缺失了将置信度提升的动力了,感觉不太好权衡

      还有一种理解是,我的IOU是和预测框有关的,我把框预测准就完事了,我框准了,置信度可以达到1不是很合理嘛?

      其实感觉有点自欺欺人的感觉,置信度为1是建立在预测的准的情况下的,感觉这是个循环论证的问题了,我还没想到啥好的解释以及好的解决方法

    • IOU是很敏感的,尤其对小物体

  • 类别分类:不用softmax函数,因为softmax强行将类别互斥了,这个是反人类的,YOLO9000有提到这个,但是YOLOv2仅在训练9000网络时尝试解决这个问题,训练ImageNet1k时还是用的softmax的

  • 多尺度预测:3个不同大小的feature map,这个很有启发性的

    网络结构如下

    img

    preview

    上述两张图都来自网络,前者CSDN,后者来自知乎,都有水印

  • 训练和YOLOv2差不多,用了多尺度图片训练,数据增强,BN等

思考: 这篇文章写的不是很清晰,有一个问题时loss function是啥

优势: 多尺度融合,这个能提取到更多的信息

不足: 论文写的不是很正式哈哈哈

For me

Reference:

Other works

  • © 2019-2022 Wendell
  • Powered by Hexo Theme Ayer

请我喝杯咖啡吧~

支付宝
微信