今天跟大家分享的主题是基于视频的 行为识别领域研究,主要介绍一下早期 的非深度学习传统方法和近期深度学习 方法取得的结果。深度学习方法带来了 非常大的变革,提升了识别系统的性能, 但这并不意味着我们把传统的东西都要 抛弃,事实上很多工作还是一脉相承的, 而且有很多传统方法是我们积累了很多 经验、很多知识、很多方法迁移过来的, 我想这不仅在视觉处理领域是这样,在 其他领域也是这样。
1.1 什么是行为
行为是什么?如果翻一下字典的话, 对行为的定义是非常广泛的:一个是人 的姿态、姿势,比如站在这里也是一种 姿态、姿势;还有就是一个人的行为, 当然行为可以不仅仅是一个人,也可以 是两个人的握握手;人的交互也是一种 行为;更大的程度上也包括群体的行为, 一群人进行体育比赛也构成特定的行为。 今天的报告中大部分研究的对象是集中 在一个人的行为上,但事实上可以看到, 这里所提到的很多特征、很多模型、很 多算法实际上是可以推广到两个人甚至 多个人的行为分析上面去。
近年来计算机视觉领域对行为识别这 个问题很感兴趣呢?这有两个方面原因, 一个方面,计算机视觉有两大对象,一 个是图像,另一个是视频。对图像来讲, 对物体进行检测、识别理解是一个重要 领域;视频包含动态和连续的图像,对 视频分类是计算机视觉的基本问题。行 为的种类是视频常见的分类标准
另一方面,我们发现,事实上人是 非常擅长进行一些行为识别的生物。在 生活过程中,我们无时无刻都在对周围 所发生的行为和事件进行识别和预测, 这是我们生存的一个基本需要。比如 说,我们到一个森林,要看看周围是不 是有一些危险动物,这些危险动物是不 是对我构成威胁,是不是相对具有攻击 性行为;我们走在马路上,要看看这个 骑自行车的人,他的下一步行进的方向 是什么,会不会和我的行走路径有交 叉,是不是要采取一些避让或者保护的 行为,等等。
在计算机视觉领域,可以把行为理解 转化为一个分类问题,当然这样有点过 于简化了;但是好处在于便于入手去研 究,也便于对开发的方法进行评测。