1. 前言

前几天听人聊到了这个 YOLT，本着长见识的目的稍微看了看，然后打算在这里给没看到的人做一个科普，希望这里面的几个 Tricks 可以对你有所启发。YOLT 论文全称You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery ，是专为卫星图像目标检测而设计的一个检测器，是在 YOLOV2 的基础上进行改进的。论文原文和代码实现见附录。

2. 介绍

众所周知，卫星图像的目标检测和普通场景的目标检测最大的区别在于卫星图像尺寸很大比如16000\times 16000，并且其目标通常很小且容易聚集在一起。针对这一痛点，YOLT 被提出，另外 YOLT 中也提出了一些对普通检测场景有用的 Trick，可以让我们借鉴，所以还是值得一读的。在卫星图像中，图片的分辨率一般用 ground sample distance（GSD）来表示，比如最常见的卫星图像是 30cm GSD。

3. YOLT 核心理论

下面的 Figure3 详细展示了卫星图像目标检测的主要几个难点以及 YOLT 的解决方案，左边这一列代表难点，右边则代表 YOLT 提出的方法。

我们来描述一下这几个难点和解决方案：

一，卫星图目标的尺寸，方向多样。卫星图是从空中拍摄的，因此角度不固定，像船、汽车的方向都可能和常规目标检测算法中的差别较大，因此检测难度大。针对这一点的解决方案是对数据做尺度变换，旋转等数据增强操作。
二，小目标的检测难度大。针对这一点解决方案有下面三点。

1、修改网络结构，使得 YOLOV2 的stride变成16，而不是原始的32，这样有利于检测出大小在16\times 16 -> 32\times 32。

2、沿用 YOLOV2 中的passthrough layer，融合不同尺度的特征（52\times 52和26\times 26大小的特征），这种特征融合做法在目前大部分通用目标检测算法中被用来提升对小目标的检测效果。

3、不同尺度的检测模型融合，即 Ensemble，原因是例如飞机和机场的尺度差异很大，因此采用不同尺度的输入训练检测模型，然后再融合检测结果得到最终输出。

三，卫星图像尺寸太大。解决方案有将原始图像切块，然后分别输入模型进行检测以及将不同尺度的检测模型进行融合。

YOLT 的网络结构如下面的 Table1 所示：

可以看到网络结构相对于 YOLOV2 最大的修改就是最后输出特征尺寸只到了26\times 26，这样就能有效的提高对小目标的检测效果。

4. 一些观察

下面的 Figure2 展示了使用两种不同类型的图像作为输入时模型（原始的 YOLOv2）的预测结果对比，左边是直接把卫星图像原图resize到416\times 416大小，可有看到结果是一辆车都检测不出来。右边则是从原图中裁剪出416\times 416大小的区域然后作为模型的输入，可以看到部分车被检测出来了，但是效果一般。从这个实验可以发现，如果直接将原图resize到网络输入大小是不靠谱的，所以 YOLT 采用了裁剪方式进行训练和测试图片。

下面的 Figure4 则展示了在测试模型时如何对输入图像进行处理。

上半部分表示的是原始的卫星图片，因为图片分辨率太大，所以采用了划窗方式裁剪指定尺寸如416\times 416的图像作为模型的输入，论文将裁剪后的区域称为 chip，并且相邻的 chip 会有 15% 的重叠，这样做的目的是为了保证每个区域都能被完整检测到，虽然这带来了一些重复检测，但可以通过 NMS 算法滤掉。通过这种操作，一张卫星图像会被裁剪出数百/千张指定尺寸的图像，这些图像被检测之后将检测结果合并经过 NMS 处理后就可以获得最终的检测结果了。

下面的 Figure5 展示了训练数据的整体情况，一共有5个类别，包括飞机，船，建筑物，汽车，机场等。对训练数据的处理和测试数据是类似的，也是从原图裁剪多个 chip 喂给网络。

这篇论文的一个核心操作就是：

针对机场目标和其它目标分别训练了一个检测模型，这两个检测模型的输入图像尺度也不一样，测试图像时同理，最后将不同检测模型、不同 chip 的检测结果合并在一起就得到最终一张卫星图像的输出。也即是说这篇文章的核心操作就是这个不同尺度的模型融合以及针对机场单独训练一个模型，这样确实是从数据出发能够很好的解决实际场景（卫星图像）中机场目标数据太少带来的问题。