时序信息运用篇



  • 前景提要:智慧交通项目上,因为第三张图的车开得比较远,车的重识别效果不好,所以考虑能否将时序信息用上,就关注了一些这方面的工作。

    《Temporal-Context Enhanced Detection of Heavily Occluded Pedestrians》 ————CVPR 2020

    原文链接: https://cse.buffalo.edu/~jsyuan/papers/2020/TFAN.pdf

    行人检测作为计算机视觉领域最基本的主题之一,多年来被广泛研究。尽管最先进的行人检测器已在无遮挡行人上取得了超过 90% 的准确率,但在严重遮挡行人检测上依然无法达到满意的效果。究其根源,主要存在以下两个难点:

    1. 严重遮挡的行人框大部分为背景,检测器难以将其与背景类别区分;
    2. 给定一个遮挡行人框,检测器无法得到可见区域的信息;

    针对这两大难题,地平线与 Buffalo 学院提出 Tube Feature Aggregation Network(TFAN)新方法,即利用时序信息来辅助当前帧的遮挡行人检测,目前该方法已在 Caltech 和 NightOwls 两个数据集取得了业界领先的准确率。

    image-20200612085411533

    主要步骤。(i)Tube linking:从当前框架中的行人方案出发,在相邻框架中迭代搜索相关的对等物(不一定是同一个人),从而形成tube;(ii)特征聚合:将成型tube中的建议特征进行聚合,根据其与当前候选建议的语义相似性进行加权,增强当前帧中行人的特征表示。

    Proposal tube 解决严重遮挡行人检测

    如下图,给定一个视频序列,首先对每帧图像提取特征并使用 RPN(Region Proposal Network)网络生成 proposal 框。 从当前帧的某个 proposal 框出发,依次在相邻帧的空间邻域内寻找最相似的proposal框并连接成 proposal tube。

    在相邻的第 i 帧和第 i-1 帧之间,具体两个 proposal 的匹配准则可根据以下公式:
    0_1591928403582_1afc6c19-af15-4b05-bc9e-e2aa462bd1c7-image.png
    其中 s 是用于计算两个 proposal 特征的余弦相似度,而 l 是用于计算两个 proposal 在尺寸大小及空间位置上的相似程度(具体公式如下)。X 和 b 分别表示 proposal 特征和 proposal 边界框,字母的上标表示 proposal 编号, Qki1Q_{k_i-1}表示在第 i-1 帧搜索区域内的 proposal 框的编号集合。

    0_1591928428789_2894e9f7-97e2-44f9-8b09-03928aa64e76-image.png

    (scale使两个proposal长宽比相似,location使空间位置相似,d为建议的中心与回归目标的offset)

    假设视频序列共有 13 帧,可以得到一个具有 13 个 proposal 框的 tube 以及他们对应的 proposal 特征。这样的做法可以有效的将时序上前后存在的无遮挡行人连接到 proposal tube 当中。随后,将这些 proposal 特征以加权求和的方式融合到当前帧的 proposal 特征中来,具体的融合权重可根据以下公式求得:
    0_1591928470006_a518dc9c-10f8-4c3f-ad1e-74d2d6193f24-image.png

    其中,τ 代表时序上前后各有 τ 帧,λ 为常数,t 表示当前帧。此做法可以避免无关的特征被错误融合进来。当背景框被连接到了行人的 tube 当中,他们的特征相似度较低,所以最后产生的融合权重较小,从而防止了行人特征被背景特征所污染,反之亦然。最后,我们将融合后的特征送入分类器,从而更好的识别严重遮挡的行人。

    TDEM模块(Temporally Discriminative Embedding Module)有效避免行人框与背景框交叉

    为了避免连接 tube 过程中发生错误的偏移,比如行人框连到了背景框,或背景框连到了行人框。针对这种情况,研究团队提出 TDEM(Temporally Discriminative Embedding Module)模块用于将原 proposal 特征映射到一个 embedding 空间,然后利用 embedding 特征来计算两个 proposal 之间的特征相似度。在这个 embedding 空间我们可利用损失函数来进行监督,使行人的 embedding 与前后帧背景的 embedding 相互排斥与前后帧行人的embedding相互吸引。具体的损失函数由 triplet loss 实现如下:

    0_1591928506413_c6ddbebe-1040-4fb5-8e82-6c1109a44121-image.png
    其中 ene^n , epe^p , etkte_t ^{{k_t}^*} 分别代表前后帧背景,行人和当前帧行人的 embedding 特征。

    image-20200612095759878

    0_1591928615950_0ce1da8e-effc-489d-a1c9-28ff8406b466-image.png

    利用 PRM(Part-based Relation Module)模块解决融合权重较少的问题

    在 PRM 模块中,首先预测当前帧行人的可见区域位置。然后,在比较两个行人框特征的相似度时,只会计算在这个可见区域内的相似度。如下图(a)右,当只比较两个行人的上半身相似度时,我们会发现他们其实是同一个人,由此产生的融合权重会较高。

    image-20200612093407311

    计算公式:
    0_1591928535393_27838a71-49ed-4cc5-adc8-ea7e7b61faa0-image.png

    下图显示了 PRM 的可视化结果,我们发现 PRM 模块计算的相似度会比直接使用全身特征计算的相似度更高。

    image-20200612093615064

    Implementation

    1.Training:

    0_1591928549499_c52f4921-9e98-4035-b7a4-5e9fd41406b6-image.png

    这里要注意的是,因为数据并没有提供track-id,作者采用前后帧中的bbox与当前帧中的bbox计算IoU,将其最大的IoU取出,并将IoU作为matching score。

    2.Inference:

    将行人检测的任务,分成回归与分类的两个部分,在分类时使用本文的增强特征。


    团队的latex什么时候能改进一下,要是能支持Mathpix四个中的一种就好了
    0_1591928868732_a9bc085a-eff1-4275-8637-e060c9464146-image.png


 

Copyright © 2018 bbs.dian.org.cn All rights reserved.

与 Dian 的连接断开,我们正在尝试重连,请耐心等待