智能感知中心在视觉物体检测领域取得一系列新进展
自动化所智能感知与计算中心张兆翔研究员课题组一直致力于借鉴脑科学和认知科学的基本理论和最新成果,针对当前深度学习的局限问题,从神经结构和认知机制两个角度研究生物启发的深度学习模型结构和计算方法,建立开放环境下的场景感知与理解方法。近期,该课题组在生物启发的物体检测新模型与新方法方向上取得了一系列突破性进展,相关成果已在国际会议ICCV2019上发表。
在二维透视成像中,近大远小是一个常见的现象。这一透视关系,帮助人类视觉系统形成对三维空间的感知。但对于基于二维图像的视觉感知任务而言,近大远小会导致相同真实大小的物体根据远近不同,因而在成像平面上形成不同尺度的物体。这将对视觉感知任务提出挑战。具体来说:(1)这会导致信息的衰减,二维图像捕获的信息随距离二次衰减,因而30米外的物体在图片上可能只有15米外相同物体 1/4 的像素;(2)卷积神经网络具有局限性。由于卷积操作在二维平面上采用相同大小的滑动窗口进行计算,同一卷积操作无法同时对尺度差异较大的物体进行响应。 针对这一传统卷积神经网络的局限,课题组首次提出 Trident 网络结构[1]。首先通过不同膨胀系数的卷积支路实现对不同尺度的物体的识别,然后通过权重共享实现对不同尺度相同物体的一致性刻画。我们还提出了一种在测试阶段只需要一条卷积支路的快速 Trident 网络,快速 Trident 网络保持了与传统检测器骨干网络相同的计算量,大幅提升了我们方法的实用性。Trident方法可以与不同基础网络结构结合,并在 COCO数据集上取得大幅度提升。

在视频任务中,由于相机的运动和视频中物体的运动,导致部分帧图像的成像质量劣化,影响对应的视觉任务,给视频目标检测带来一系列的挑战,包括运动模糊、镜头失焦、姿态差异等。通过仔细分析视频序列,可以发现,即使在成像质量较低的帧中,人眼也可以分轻易的分辨出物体的轮廓。这一发现启发课题组采用实例发现(Instance Spotting) + 实例匹配(Instance Association) 的思路来解决视频检测中图片成像质量劣化的问题,提出一种序列语义聚合模型(Sequence Level Semantics Aggregation,SELSA)[2]。具体而言,首先利用 RPN 网络来实现实例发现模块,然后利用基于语义的相似性度量来实现实例匹配模块。由于该方法是基于语义相似度来进行实例特征的融合,进而提出基于全视频序列的采样方法,这是之前基于光流的方法所不能实现的,在不同的基础网络上都取得了目前最好的效果。并且,由于进行了全视频序列采样,该方法很好融合了序列信息,所以不需要进行 SeqNMS 之类的后处理,极大简化了整个方法流程。
目标检测是目前机器学习在实际场景中应用最广泛的技术之一。实用性是这个考量目标检测技术的一个重要指标。所谓实用目标检测,主要应该有以下几个特点:1)能良好的处理检测中的目标多尺度问题;2)快速的运行速度;3)支持TensorRT/TVM等硬件加速方法。传统的目标检测技术处理多尺度的能力有限,一些前沿的方法如DCN/SAC虽然能有效地增强网络结构处理多尺度的能力,但是由于其动态自适应的卷积核不支持硬件加速,导致这类方法在实际场景中的应用受限。通过实验发现,检测器应对多尺度能力的限制主要来源于其有效感受野是有限的,而改变网络卷积的膨胀系数能有效地改变有效感受野的分布。然而,如何获得理想的膨胀系数仍然是一个尚未有效解决的难题。为了解决以上问题,同时保证检测器的运行效率,课题组提出了POD方法。该方法的主要步骤包括:首先训练了一个膨胀系数学习器,负责学习神经网络中卷积理想的膨胀系数。然后从学到的膨胀系数分布解耦成可控的膨胀系数的组合。最后,我们采用解耦出的系数组合,构建出高性能的,且可加速的新型网络结构。仅仅通过改变网络的卷积采样结构,网络即能获得有效的性能提升。该方法能有效的提升各种检测器的性能,且不引入任何额外参数和额外计算量,对各种硬件加速工具友好。
相关论文:
[1].Yanghao Li, Yuntao Chen, Naiyan Wang, Zhaoxiang Zhang*, Scale-Aware Trident Networks for Object Detection, ICCV2019.
[2].Haiping Wu, Yuntao Chen, Naiyan Wang, Zhaoxiang Zhang*, Sequence Level Semantics Aggregation for Video Object Detection, ICCV2019.
[3].Junran Peng, Ming Sun, Zhaoxiang Zhang*, Tieniu Tan, Junjie Yan, POD: Practical Object Detection With Scale-Sensitive Network, ICCV2019.