通过利用已有数据的方式,迁移学习的方法能够在一定程度上减少深度学习算法对目标域数据的搜集标注工作。域适应方法是众多迁移学习方法的一种,其假设源域和目标域的数据特征空间、类别空间一致,仅在特征分布上存在差异。当前域适应目标检测方法可分为对抗特征学习、图像翻译、领域随机化和伪标签自训练等类型(Oza 等, 2021)。
下面分别介绍这些方法的基本原理和研究现状。
(1)基于对抗特征学习的迁移学习目标检测方法
在众多类型的域适应目标检测方法中,当前最为流行的是对抗特征学习方法,其优势在于泛化性能最好。对抗特征学习通过在目标检测器中插入领域判别器的方式强迫检测器学习跨域的公共特征,具体来说,使用梯度反转层(Gradient Reversal Layer,GRL)(Ganin 等, 2017)使得领域鉴别器尽可能地区分样本来自哪个领域,而检测器则尽可能混淆两域的特征。(Chen 等, 2018)将对抗特征域适应方法首先引入到目标检测任务中,在图像特征层面和实例特征层面分别插入域鉴别器;随后,(Saito 等, 2019)提出在局部特征上加入域鉴别器,并在全局特征的域鉴别器中参考 Focal Loss(Lin 等, 2018)思想对不同区分难度的样本赋予不同权重,以避免强制对齐深层语义特征造成负迁移现象;(Chen 等, 2020)探讨了对抗特征对齐中的特征可区分性和可迁移性的矛盾,利用香农熵计算出空间权重对局部和全局的特征进行加权;(Xu 等, 2020) 在对齐两域的特征分布时重点关注前景区域,使用区域建议网络计算出各个区域的注意力作为对抗损失的空间权重。由于对抗学习的不稳定性,对抗特征对齐需要利用正则化来稳定训练过程。
(2)基于图像翻译的迁移学习目标检测方法
基于图像翻译的方法尝试将源域图像通过无监督的方式翻译为具有目标域图像风格的样本,这种方法在像素层面缩小了两域的分布差异。(Arruda 等, 2019)将白天的图像无监督地翻译到夜晚图像,并将对应目标的边界框标签赋予翻译后的图像再训练目标检测模型,实现了夜间车辆检测。(Guo 等, 2019)将包含行人的可见光图像翻译到近红外图像,综合使用可见光翻译前后的图像训练检测模型,缓解了近红外域标签缺乏的问题。图像翻译的方法可解释性强,但是域适应目标检测模型性能依赖于图像翻译模块的效果,由于这不是端到端的过程,在期望优化目标检测效果时缺少调节图像翻译模块的有效指导。
(3)基于域随机化的迁移学习目标检测方法
域随机化的方法旨在强迫模型不依赖于源域的风格偏差,通过随机地生成多种风格的源域图像使得模型不依赖于任何一种风格,因此在目标域也能很好地泛化。由于域随机化的方法在训练过程中需要产生大量的随机风格数据不便于实际使用,域随机化往往与其他迁移学习方法结合使用。如(Kim T 等, 2019)利用生成对抗网络了在源域和目标域之间生成了大量的中间域图像,并将二分类的域别器拓展为多类别。类似地,(Rodriguez, 2019)利用(Huang & Belongie, 2017)提出的自适应实例归一化(Adaptive Instance Normalization,AdaIN)实现源域到目标域的随机风格化,并结合伪标签自训练应用于 SSD 的跨域目标检测。
(4)基于伪标签自训练的迁移学习目标检测方法
伪标签自训练的基本思想是先利用有标签的源域数据训练出初始目标检测模型,然后利用该模型对无标签的目标域数据进行预测,由于两域的分布不同,因此预测的标签往往具有很大的噪声,所以需要筛选置信度高的目标域数据加入训练集中,再继续训练模型,直到模型符合要求(RoyChowdhury 等, 2019)。该方法简洁有效,其中最为关键的步骤在于设计筛选高置信度标签的规则。
(5)遥感影像的迁移学习目标检测方法
与自然影像目标检测相比,遥感影像目标检测具有目标尺度差异大、小目标分布密集、光谱特征复杂、前景与背景相似性较高等特点。当前针对遥感影像的域适应目标检测相关研究还较少。(Koga 等, 2020)在跨域车辆检测中使用协方差对齐和对抗特征对齐取得了较好的效果。(Chen 等, 2021)在图像级特征和实例级特征层面使用对抗特征对齐证实了在正常光照遥感图像到低光照遥感图像域适应目标检测上的有效性。然而(Li X 等, 2020)评估了利用(Zhu 等, 2017)提出的循环一致对抗生成网络(Cycle-Consistent Adversarial Networks,CycleGAN)进行图像翻译在变化检测和目标检测中的效果时,发现基于对抗生成网络的图像翻译方法未能提高航空影像到卫星影像建筑物检测的效果。