近日,上海交通大学沈为老师团队联合华为田奇老师团队共同发布了非完全监督(即标签有限)下的图像分割方法综述,全文包含170+篇文献。该综述全面总结了不同类型的监督标签在不同分割任务上的进展情况:包括无监督、弱监督、半监督、部分监督、域迁移等多种设置下的语义、实例、全景分割问题。该综述以统一视角-“如何缩小弱监督信号与密集预测之间的差距”去分析这些方法,并总结出用于解决这个问题的四种通用的启发式先验:1) cross-label constraint (跨标签约束), 2) cross-pixel similarity (跨像素相似性), 3) cross-view consistency (跨视图一致性), 4) cross-image relation (跨图像关系)。该综述也为监督学习下的图像分割问题提供了未来潜在的可研究方向。
论文下载地址:https://arxiv.org/abs/2207.01223
沈为团队:https://shenwei1231.github.io
图像分割是计算机视觉中最为古老也是最广泛研究的任务之一。它的目标是对给定的图像来生成密集的预测,例如:给每个像素分配一个预定义的类别标签(语义分割);为每个像素预测一个对象实例标签(实例分割);或前两者的预测结果的组合(全景分割)。该任务能使语义相似的像素组成高级的/有意义的概念,如动态对象(人、猫、球等)和静态物体(道路、天空、水等)。
在过去的近十年里,由于深度学习的发展,图像分割领域受益匪浅。尤其是在全卷积网络(FCN)的加持下,诸如DeepLab系列,Mask RCNN系列等方法凭借卷积网络强大的密集特征表征能力以及独特的设计在图像分割领域大放异彩,获得了非常好的分割效果。但是这些方法也存在着一个共同的缺点,即对于像素级的标签的需求是非常大的,往往分割效果是与可用的具有密集标注的图像的数量是成正比关系的。而人为的为每一张图像做像素级的标注又是非常费时费力的,这也限制了深度学习进一步的发展,更限制了图像分割在真实工业场景中的应用。
鉴于现实世界中密集标注的标签的稀缺性,设计基于非完全监督信号来减少对密集标签依赖的分割方法成为一种日益发展的趋势,吸引了越来越多研究者的关注,因此,近年来提出的非完全监督下的图像分割方法数量呈爆发式增长,这也使得研究人员难以跟上新的进展,也使得入门的新手眼花缭乱。鉴于此,迫切需要对这些非完全监督的图像分割方法进行归纳总结。然而,据我们所知,目前仅有个别几篇相关的调研论文,且它们仅仅关注于一个特定的分割任务,并仅包含个别类型的弱标签,无法做到全面的总结。
我们的目的在于提供一个面向于非完全监督下图像分割领域的全面的综述,对涉及的方法进行归纳精炼。简单来说,这些方法主要使用弱监督信号(标签)来解决了三种分割问题:语义分割,实例分割,全景分割。为了将这些方法组织起来统一的看待并发现他们的关联性,我们需要想好两个问题: 1)如何对这些方法建立合适分类与关联? 2)如何从统一的角度总结这些方法所使用的策略? 我们注意到,弱标签的类型是设计非完全监督图像分割方法的关键,决定了可用信息的多少。因此,我们试图从弱标签信号差异的角度来回答上述两个问题。
为了回答第一个问题,我们首先总结出非完全监督信号的统一分类,我们将其归纳为层次化的树状结构,我们提供了形象的示意图,如图2所示,具体类型包括:
根据这些分类,再结合不同的任务类型,我们归纳出一套分类系统,如图3所示,我们的全文也是基于此分类系统来进行总结。在该图中,上半部分为我们的标签类型的树状示意图,下半部分为结合了标签类型+任务类型的分类图,横轴代表了不同标签,纵轴代表了不同任务。在该图中我们也标注了已有的代表性工作和待开发的领域。
为了回答第二个问题,我们结合不同弱监督信号之间的关联以及对170+篇论文进行归纳提炼后,总结出了四种通用的启发式先验:
通过下列表1的代表性方法的核心做法归纳中可以看到,在各种监督信号/各种任务下,我们总结的启发式先验具有通用性。
本综述中,为了统一的看待这些问题,我们也对不同任务+不同监督信号的组合使用了统一的数学描述,如表2所示(详细解释可查阅原文)。
我们对于几乎每一部分(即某种监督信号下的某个任务)都总结了一个具有概括性的流程图,便于研究人员明确当前已有工作的入手点与研究路线。
我们在总结归纳的基础上,也为不完全监督下的图像分割的发展提出了自己的见解,即未来潜在的研究方向,希望为研究者们提供一点思路。
1 | @misc{Shen_2022_Survey, |