关于生成式方法,其核心思想即衡量前一帧的预测目标与当前帧候选框的相似度,然后选择最为相似的候选框作为当前帧的跟踪结果(即预测目标在当前帧的位置)。生成式方法被进一步分成下述三类:
1)空间距离 (spatial distance) 即用空间距离衡量相似度的解决方案,通常利用最优化理论将跟踪问题转换成空间距离最小化问题。利用此方法的经典算法包括IVT (Incremental learning Visual Tracking) [10] 和ASLA(Adaptive Structural Local sparse Appearance model tracking) [11]。其算法的核心思想是:计算当前帧候选框的像素灰度值与上一帧预测目标的像素灰度值之间的Euclidean distance,然后取距离最小的候选框作为当前帧的预测目标。在特征提取时应用了奇异值分解等技术来减小计算复杂度。
2)概率分布距离 (probabilistic distribution distance) 即用概率分布距离衡量相似度的解决方案,通常利用最优化理论将跟踪问题转换成概率分布距离最小化问题。利用此方法的经典算法包括CBP (Color-Based Probabilistic) [12]和FRAG (robust FRAGments-based) [13]。其算法的核心思想是:计算当前帧候选框的颜色直方图分布与上一帧预测目标的颜色直方图分布之间的Bhattacharyya distance,然后取距离最小的候选框作为当前帧的预测目标。
3)综合 (combinatorial) 这部分解决方案以MeanShift[14]和CamShift算法为代表,其模糊了对于相似度匹配的距离衡量,甚至没有显式地候选框生成过程,而是借鉴了机器学习中meanshift聚类算法的思想,在每一帧中利用上一帧预测目标的颜色直方图分布,计算该帧中相应位置的像素的颜色直方图分布,然后进行聚类得到其分布的均值,其对应的像素位置是该帧中预测目标的中心位置,然后加上候选框宽高等信息即可得到当前帧预测目标的空间位置。在MeanShift算法中,宽高信息是固定的,因此其无法应对目标尺度和旋转变化,而CamShift通过将图像矩引入相似度匹配[7],得到目标尺度和旋转信息,进一步提高了算法的性能。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。