Liu, P., Liu, X., Yan, J., & Shao, J. (2018). Localization Guided Learning for Pedestrian Attribute Recognition. arXiv preprint arXiv:1808.09102.
面临问题: 难以定位不同属性的区域
解决方法: 提出 Localization Guided Network, 根据属性位置和预提取的 proposals给特定属性分配局部特征.
优势: 每个属性的特征自动学习,并能和全局特征进行交互。
许多方法将行人属性识别当成 multi-label 分类问题。基于深度学习的方法面临的挑战有:
- 行人图像的分辨率不理想
- 相对与人体,属性变化尺度大,小尺寸属性难以分类
- 行人与监控相机的角度和距离,行人检测算法的性能,导致性能的尺度和视角变化多段
网络结构
目的: 提取和使用属性位置出的局部特征。
Localization Guided Network 由两个分支构成,即全局分支和局部分支。(1) 全局分支使用图像级别的输入,生成所有属性的位置信息;(2)局部分支使用位置信息预测属性。两个分支均使用调整后的 Inception-v2 结构,其原因在与该网络具有多尺度特征提取的的作用。
全局特征提取
输入为整张图像,提取类别的激活图谱
原始的 CAM 方法输出特征图的加权和作为某类的激活图 (class activation map). 在训练和测试过程中,全局分支的参数固定用于生成激活图。在获取激活图之后,通过裁切激活图中的高响应区域作为每个属性对应的激活框(activation box)。
局部特征提取
局部分支使用 EdgeBoxes 算法提取候选框,使用 ROI pooling 层提取局部特征。提取的局部特征传入 inception-5b, 后接 Global Average Pooling.
位置引导模块
不同的候选框对属性的影响是不一样的,不同的属性聚焦的位置也不一样。
Global stream:
Local stream:
特征融合: