A Survey on Label-efficient Deep Segmentation: Bridging the Gap between Weak Supervision and Dense Prediction - Xuehui Wang (王雪辉)

上海交大&华为-最新非完全监督下基于深度学习的图像分割方法综述

近日，上海交通大学沈为老师团队联合华为田奇老师团队共同发布了非完全监督（即标签有限）下的图像分割方法综述，全文包含170+篇文献。该综述全面总结了不同类型的监督标签在不同分割任务上的进展情况：包括无监督、弱监督、半监督、部分监督、域迁移等多种设置下的语义、实例、全景分割问题。该综述以统一视角-“如何缩小弱监督信号与密集预测之间的差距”去分析这些方法，并总结出用于解决这个问题的四种通用的启发式先验：1) cross-label constraint (跨标签约束), 2) cross-pixel similarity （跨像素相似性）, 3) cross-view consistency （跨视图一致性）, 4) cross-image relation （跨图像关系）。该综述也为监督学习下的图像分割问题提供了未来潜在的可研究方向。
论文下载地址：https://arxiv.org/abs/2207.01223
沈为团队：https://shenwei1231.github.io

network

背景与问题

图像分割是计算机视觉中最为古老也是最广泛研究的任务之一。它的目标是对给定的图像来生成密集的预测，例如：给每个像素分配一个预定义的类别标签（语义分割)；为每个像素预测一个对象实例标签(实例分割)；或前两者的预测结果的组合(全景分割)。该任务能使语义相似的像素组成高级的/有意义的概念，如动态对象(人、猫、球等)和静态物体(道路、天空、水等)。

在过去的近十年里，由于深度学习的发展，图像分割领域受益匪浅。尤其是在全卷积网络（FCN）的加持下，诸如DeepLab系列，Mask RCNN系列等方法凭借卷积网络强大的密集特征表征能力以及独特的设计在图像分割领域大放异彩，获得了非常好的分割效果。但是这些方法也存在着一个共同的缺点，即对于像素级的标签的需求是非常大的，往往分割效果是与可用的具有密集标注的图像的数量是成正比关系的。而人为的为每一张图像做像素级的标注又是非常费时费力的，这也限制了深度学习进一步的发展，更限制了图像分割在真实工业场景中的应用。

鉴于现实世界中密集标注的标签的稀缺性，设计基于非完全监督信号来减少对密集标签依赖的分割方法成为一种日益发展的趋势，吸引了越来越多研究者的关注，因此，近年来提出的非完全监督下的图像分割方法数量呈爆发式增长，这也使得研究人员难以跟上新的进展，也使得入门的新手眼花缭乱。鉴于此，迫切需要对这些非完全监督的图像分割方法进行归纳总结。然而，据我们所知，目前仅有个别几篇相关的调研论文，且它们仅仅关注于一个特定的分割任务，并仅包含个别类型的弱标签，无法做到全面的总结。

我们做了什么？

我们的目的在于提供一个面向于非完全监督下图像分割领域的全面的综述，对涉及的方法进行归纳精炼。简单来说，这些方法主要使用弱监督信号（标签）来解决了三种分割问题：语义分割，实例分割，全景分割。为了将这些方法组织起来统一的看待并发现他们的关联性，我们需要想好两个问题: 1)如何对这些方法建立合适分类与关联? 2)如何从统一的角度总结这些方法所使用的策略? 我们注意到，弱标签的类型是设计非完全监督图像分割方法的关键，决定了可用信息的多少。因此，我们试图从弱标签信号差异的角度来回答上述两个问题。

为了回答第一个问题，我们首先总结出非完全监督信号的统一分类，我们将其归纳为层次化的树状结构，我们提供了形象的示意图，如图2所示，具体类型包括：

无监督信号：即训练集中的图像没有任何标注信号（图2a)。
粗粒度监督信号：即训练集中的图像有标注信号，但这些信号不是像素级的，无法为每一个像素提供类别信息或者实例信息。在该类型下主要包括： 1）图像级别的标注，2）检测框级别的标注，3）涂鸦级别的标注（图2b）。
不完全监督信号：即训练集中的一部分图像有像素级的标注信号。在该类型下主要包括：1）半监督标签，即属于同域的另一部分图像没有任何标签。2）特定域的标签，即另一部分图像属于另一个域，其没有任何标注。3）部分密集标签，即属于同域的另一部分图像有检测框级别的弱标注（图2c）。
带噪监督信号：即有像素级别的标注，但是这些标注并不一定全部准确（图2d）。

network

图2. 每一种弱监督信号的示意图。第一列为完全密集监督信号的例子。

根据这些分类，再结合不同的任务类型，我们归纳出一套分类系统，如图3所示，我们的全文也是基于此分类系统来进行总结。在该图中，上半部分为我们的标签类型的树状示意图，下半部分为结合了标签类型+任务类型的分类图，横轴代表了不同标签，纵轴代表了不同任务。在该图中我们也标注了已有的代表性工作和待开发的领域。

network

图3. 本文归纳的分类示意图。

为了回答第二个问题，我们结合不同弱监督信号之间的关联以及对170+篇论文进行归纳提炼后，总结出了四种通用的启发式先验：

cross-label constraint，即跨标签约束：弱标签与密集标签之间具有一些约束关系，如给定图像的类别标签，我们可以知道图中必有至少一个像素属于该类别。
cross-pixel similarity，即跨像素相似性：具有诸如颜色，纹理，高层次特征相似性的像素点很可能是同类像素或者同对象像素。
cross-view consistency，即跨视图一致性：同一张图的不同的视角具有强关联性/预测一致性。
cross-image relation，即跨图像关系：不同图像中属于同一类别的实例具有相同的语义关系。

通过下列表1的代表性方法的核心做法归纳中可以看到，在各种监督信号/各种任务下，我们总结的启发式先验具有通用性。

network

表1. 多种弱监督信号下的图像分割代表性工作。

本综述中，为了统一的看待这些问题，我们也对不同任务+不同监督信号的组合使用了统一的数学描述，如表2所示（详细解释可查阅原文）。

network

表2. 统一的数学描述。

章节概览

Sec 2. 问题定义
Sec 3. 无监督信号
Sec 4. 粗粒度监督信号
- 图像级别标注下的语义分割
- 图像级别标注下的实例分割
- 图像级别标注下的全景分割
- 检测框级别标注下的语义分割
- 检测框级别标注下的实例分割
- 检测框级别标注下的全景分割
- 涂鸦级别标注下的语义分割
Sec 5. 不完全监督信号
- 半监督标注下的语义分割
- 域自适应标注下的语义分割
- 部分监督标注下的实例分割
Sec 6. 带噪监督信号
- 带噪标注下的语义分割
Sec 7. 总结与讨论
- 当前挑战
- 未来潜在研究方向

部分论文图示预览

我们对于几乎每一部分（即某种监督信号下的某个任务）都总结了一个具有概括性的流程图，便于研究人员明确当前已有工作的入手点与研究路线。

network

未来的研究方向

我们在总结归纳的基础上，也为不完全监督下的图像分割的发展提出了自己的见解，即未来潜在的研究方向，希望为研究者们提供一点思路。

结合文本监督的零样本图像分割。多模态技术是未来的主流方向，也更贴近人的认知系统。从文本中获得一定的语义信息可以更好的帮助新类别的识别与分割，利于零样本任务的发展。
利用Transformer特性的不完全监督图像分割方法。当前大部分方法还是基于卷积神经网络来实现的，爆火的Transformer在不完全监督下的图像分割领域目前还没有被探索，许多Transformer特性可能对该任务具有更有力的优势。
还未开拓的其他不完全监督方案。如图3所示，这里依然有很多方向还没有被开发，研究者可以发觉更多合理的任务设置，争做“第一篇”。

Citation

@misc{Shen_2022_Survey,
      title={A Survey on Label-efficient Deep Segmentation: Bridging the Gap between Weak Supervision and Dense Prediction}, 
      author={Wei Shen and Zelin Peng and Xuehui Wang and Huayu Wang and Jiazhong Cen and Dongsheng Jiang and Lingxi Xie and Xiaokang Yang and Qi Tian},
      year={2022},
      eprint={2207.01223},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}