废钢厂家
免费服务热线

Free service

hotline

010-00000000
废钢厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

全方位解读全景分割技术旷视冠军团队最新分享_[#第一枪]

发布时间:2021-06-07 14:07:12 阅读: 来源:废钢厂家

雷锋网 AI 科技评论按,本文作者刘环宇,系浙江大学控制科学与工程自动化系硕士,旷视科技研究院算法研究员,全景分割算法 OANet 第一作者,研究方向包括全景分割、语义分割等。同时,他也是 2018 COCO + Mapillary 全景分割比赛旷视 Detection 组冠军团队成员。

本文原载于知乎,获授权转载。

前言

在计算机视觉中,图像语义分割(Semantic Segmentation)的任务是预测每个像素点的语义类别;实例分割(Instance Segmentation)的任务是预测每个实例物体包含的像素区域。全景分割 [1] 最先由 FAIR 与德国海德堡大学联合提出,其任务是为图像中每个像素点赋予类别 Label 和实例 ID,生成全局的、统一的分割图像。

接下来我们将全面解读全景分割任务,下面这张思维导图有助于大家整体把握全景分割任务特性:

全景分割解读思维导图

首先,我们将分析全景分割任务的评价指标及基本特点,并介绍目前最新的研究进展;然后介绍我们发表于 CVPR 2019 的工作 Occlusion Aware Network (OANet),以及旷视研究院 Detection 组参与的 2018 COCO Panoptic Segmentation 比赛工作介绍;最后对全景分割当前研究进行总结与分析。

任务与前沿进展解读

全景分割任务,从任务目标上可以分为 object instance segmentation 子任务与 stuff segmentation 子任务。全景分割方法通常包含三个独立的部分:object instance segmentation 部分,stuff segmentation 部分,两子分支结果融合部分;通常 object instance segmentation 网络和 stuff segmentation 网络相互独立,网络之间不会共享参数或者图像特征,这种方式不仅会导致计算开销较大,也迫使算法需要使用独立的后处理程序融合两支预测结果,并导致全景分割无法应用在工业中。

因此,可以从以下几个角度分析与优化全景分割算法

(1)网络框架搭建;

(2)子任务融合;

(3)全景输出预测;

这三个问题分别对应的是全景分割算法中的三个重要环节,下面我们将分别分析这些问题存在的难点,以及近期相关工作提出的改进方法与解决方案。

全景分割评价指标

FAIR 研究团队 [1] 为全景分割定了新的评价标准 PQ (panoptic segmentation) 、SQ ( segmentation quality)、RQ (recognition quality),计算公式如下:

PQ 评价指标计算公式

其中,RQ 是检测中应用广泛的 F1 score,用来计算全景分割中每个实例物体识别的准确性,SQ 表示匹配后的预测 segment 与标注 segment 的 mIOU,如下图所示,只有当预测 segment 与标注 segment 的 IOU 严格大于 0.5 时,认为两个 segment 是匹配的。

全景分割预测结果与真实标注匹配图解 [1]

从上面的公式能够看到,在预测与标注匹配后的分割质量 SQ 计算时,评价指标 PQ 只关注每个实例的分割质量,而不考虑不同实例的大小,即大物体与小物体的分割结果对最终的 PQ 结果影响相同。Yang et al. [6] 注意到在一些应用场景中更关注大物体的分割结果,如肖像分割中大图的人像分割、自动驾驶中近距离的物体等,提出了 PC (Parsing Covering) 评价指标,计算公式如下:

PC 评价指标计算公式

其中,R, R' 分别表示对应类别的预测 segments 与真实 segments,|R| 表示对应类别的实例在真实标注中像素点数量,Ni 表示类别为 i 的真实标注像素点总和。通过对大的实例物体赋予更大的权重,使评价指标能够更明显地反映大物体的分割指标。

网络框架搭建

由于 object instance segmentation 子任务与 stuff segmentation 子任务分别属于两个不同的视觉预测任务,其输入数据及数据增强方式、训练优化策略与方法、网络结构与方法具有较大的不同,如何将两个子任务融合并统一网络结构、训练策略,是解决该问题的关键。

FAIR 研究团队提出了一种简洁有效的网络结构 Panoptic FPN [2],在网络框架层面将语义分割的全卷积网络(FCN)[3] 和实例分割网络 Mask RCNN [4] 统一起来,设计了单一网络同时预测两个子任务,网络结构如下图所示。

Panoptic FPN 网络框架图

该网络结构能够有效预测 object instance segmentation 子任务与 stuff segmentation 子任务。在 Mask RCNN 网络与 FPN [5] 的基础上,作者设计了简单而有效的 stuff segmentation 子分支:在 FPN 得到的不同层级的特征图基础上,使用不同的网络参数得到相同大小的特征图,并对特征图进行加法合并,最后使用双线性插值上采样至原图大小,并进行 stuff 类别预测。

MIT 与谷歌等联合提出 DeeperLab [6],使用 bottom-to-up 的方法,同时实现 object instance segmentation 子任务与 stuff segmentation 子任务,其网络结构如下图所示:

DeeperLab 网络结构图

该网络包含了 encoder、decoder 与 prediction 三个环节,其中,encoder 和 decoder 部分对两个子任务均是共享的,为了增强 encoder 阶段的特征,在 encoder 的末尾使用了 ASPP (Atrous Spatial Pyramid Pooling) 模块 [7];而在 decoder 阶段,首先使用 1×1 卷积对低层特征图与 encoder 输出的特征图进行降维,并使用内存消耗较少的 space-to-depth [8, 9] 操作替代上采样操作对低层特征图进行处理,从而将低层特征图(大小为原图 1/4)与 encoder 输出的特征图(大小为原图 1/16)拼接起来;最后,使用两层 7×7 的大卷积核增加感受野,然后通过 depth-to-space 操作降低特征维度。

为了得到目标实例预测,作者采用类似 [10, 11, 12] 的使用基于关键点表示的方法,如下图所示,在 object instance segmentation 子分支头部,分别预测了 keypoint heatmap(图 a)、long-range offset map(图 b)、short-range offset map(图 c)、middle-range offset map(图 d)四种输出,得到像素点与每个实例关键点之间的关系,并依此融合形成类别不可知的不同实例,最后得到全景分割的结果。

object instance segmentation 子分支头部预测目标

子任务融合

虽然通过特征共享机制与网络结构设计,能够将 object instance segmentation 子任务与 stuff segmentation 子任务统一起来,但是这两个子分支之间的相互联系与影响并没有得到充分的探究,例如:两个子分支的任务是否能够达到相互增益或者单向增益的效果?或者如何设计将两个子分支的中间输出或者预测关联起来?这一部分问题我们可以统一将它称作两个子任务的相互提升与促进。

中科院自动化研究所提出了 AUNet [13],文中设计了 PAM(Proposal Attention Module)与 MAM(Mask Attention Module)模块,分别基于 RPN 阶段的特征图与 object instance segmentation 输出的前景分割区域,为 stuff segmentation 提供了物体层级注意力与像素层级注意力,其网络结构图如下图所示:

AUNet 网络结构图

为了使 object instance segmentation 的预测输出与 stuff segmentation 预测输出保持一致性,丰田研究院设计了 TASCNet [14],其网络结构如下图所示:

TASCNet 网络结构图

网络首先将 object instance segmentation 子分支得到的实例前景掩膜区域,映射到原图大小的特征图中,得到全图尺寸下的实例前景掩膜区域,并与 stuff segmentation 预测的实例前景掩膜进行对比,使用 L2 损失函数最小化两个掩膜的残差。

全景输出预测

Object instance segmentation 子分支与 stuff segmentation 子分支的预测结果在融合的过程中,一般通过启发式算法(heuristic algorithm)处理相冲突的像素点,例如简单地以 object instance segmentation 子分支的预测结果为准,并以 object instance segmentation 子分支的检测框得分作为不同实例的合并依据。

这种方式依据简单的先验逻辑判断,并不能较好地解决全景分割复杂的合并情况,因此,如何设计有效的模块解决 object instance segmentation 子分支与 stuff segmentation 子分支到全景分割输出的融合过程,也是全景分割任务中的重要问题。

Uber 与港中文联合提出了 UPSNet [15],其网络结构图如下图所示:

UPSNet 网络结构图

将 object instance segmentation 子分支与 stuff segmentation 子分支的输出通过映射变换,可得到全景头部输出的特征张量,该张量大小为 (Ninst+ Nstuff)×H×W,其中,N_{inst} 为动态变量,表示一张图像中实例的数量,Nstuff 表示 stuff 类别个数,对于每张图像其数值是相同的,下文使用 Xthing 和 Xstuff 分别表示这两种特征张量。此外,网络对像素进行了未知类别的预测(Unknown Prediction),从而使得网络能够将部分像素点判断为未知类别并在测试的时候进行忽略,避免做出错误的类别导致 PQ 指标下降。

在得到 object instance segmentation 子分支与 stuff segmentation 子分支的输出后,经过如下图所示的变换,映射成 Xthing 和 Xstuff。

panoptic segmentation head 示意图

Xstuff 可以直接从不规则类别分割的输出中提取,Xthing 中的第 i 个实例的掩膜区域可由 Xmaski + Ymaski 获得,其中 Xmaski 表示第 i 个实例对应的真实标注框与标注类别在 stuff segmentation 子分支输出截取的掩膜区域,Ymaski 表示第 i 个实例对应的 instance segmentation 子分支得到的掩膜区域映射到原图的掩膜区域,最后使用标准的逐像素点的交叉熵损失函数对全景头部输出的张量进行监督训练。

Occlusion Aware Network 专栏解读

论文

电子线生产

ABS改性料

中继器价格

库存娱乐休闲产品价格

相关阅读