视频事件检测(下)| 学习笔记

简介: 快速学习视频事件检测(下),介绍了视频事件检测(下)系统机制, 以及在实际应用过程中如何使用。

开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算视频事件检测(下)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/811/detail/15705


视频事件检测(下)


单模态特征主要研究什么:

比如有长时间的哨声,有短哨声,观众的兴奋声,激动的解说,普通的解说就在音频分析里面在线时通常是可以检测到

比如现在还想做类似的研究,可以找一找类似的文章去看,通过这个可以预测到这些这些音频的特征,可以用来判断犯规,可以用来判断进球和射门,

image.png

长哨声和短哨声,长哨声有的时候是进球,有的时候已经比赛截止或者是开球时候。哨声有的可能是犯规等等。通常在提取的声音的在线特征的时候通常把它变换到频率来看评估。

视觉特征

足球里面最主要的就是要检测出球场区域通过球场区域在图像中占的比例要把整个的足球比赛分成中远,近和特写镜头另外一个就提取比分盘,特定区域比分牌有两个,进球以后通常是在这个地方跳出来

还有一个比分牌通常是在屏幕的左上角或者右上角的区域。像这种的比赛里面,这个区域跳出来一定是进球事件发生或者是换人。

image.png

就是球门检测,镜头的分割,前面讲到过很多视频分析的知识,在这里面都作为了事件检测的基础。

比如以足球事件为例,先来一个连续的视频进行镜头分割,再把镜头进行分类,远镜头中镜头特写镜头,通常进球发生在特写镜头,特写镜头是对球员或者回放镜头里的,在这里面,再提取它的球门球场比分牌,回放事件。通过特征联合来判定是犯规,进球还是射门

image.png

比如说有两个射门和进球之间。从视觉上很难区分听觉音频音频就记住了,射门没有进欢呼声和进球以后的欢呼声是截然不同的,但是加上比分牌了以后就解决了。

单纯依靠外部文本,是直播文本检测的比赛有直播文本,还有一些比赛没有直播的文本,但是它有一些新闻报道可能几百个字,这里面有很多的关键词,比如昨天某队和某堆,比如说中国队跟韩国队打了一场场比赛中国队表现异常突出,以3 : 0战胜韩国队,在第50分钟的时候,谁进了一个球,58分钟时候谁又一个关键词提取出来就是找特定事件的重要的线索依据。原来本以为有关系的,通过跨媒体,通过模块就可以把这些信息联系在一起,可是现在的主流的模式就是要把多个模态的特征能提出来的,或者能提出提得准的,西罗列出来然后在彼此的特征之间,,建立一个联系,甚至还可以构建一个复杂的知识图谱,通过知识图谱,再加上知识推理,就可以把特定的事件分析出来

image.png

比如说所有在足球里面的精彩镜头,比如说射门,包括进球,还有甚至一些犯规,都是一些很重要的事件像红黄牌。这些事件的发生都有回放镜头,所以把回放镜头检测出来之后,基本上就把所有的可能精彩的镜头给涵盖了,然后在这些回放镜头相邻的这些镜头里面,再分哪些是进球,哪些是犯规

为什么有回放:

所有的比赛是人去做导播去转播之所以把回放的镜头重复放,是因为人判断这件事,这个事件值得重复放映,已经在回放镜头里面已经把人的一个主观的观点,它融合进去,而现在的反向要利用这个线索去找精彩

以上都是基于传统的特征方法去提取或者去检测事件,它的特点是要依靠人的一先验的知识针对不同的事件要设计不同的特征能够准确来描述这个信息

这样做的针对性比较强但问题是的泛化能力比较弱,是用在检测足球里面的,一定不能用在篮球里,用在网球里。

结合视觉音频文本来辅助信息检测事件对特定事件的检测效果非常好足球里面通过音频和视觉信息找到进球的镜头是但是要找到谁进的球,几乎是不可能的,但是通过外部的文本就可以找到了,因为在那个时间段,说第58分钟谁进的球这一句话把是谁进的球给说清楚了通过时间镜头关联上,就可以准确的把这个事件给描述出来。

粗略的估计事件发生的范围,对事件边界的定位,传统的方式是很难做的。

近十年开始尝试,能不能把深度学习加在一起,团队呢近五年开始做,它一般与镜头的特征相结合,将镜头分割作为预处理的基础。比如足球视频为例,先把它分成一个一个镜头,排队镜头进行分类,然后利用这种深层的深度学习的网络模型,你可以用 CN ,可以用其的来提取特定镜头,每一个镜头里面再把它分成,比如五秒钟判断一个片段,或者是多少个一个片段,每一个片段具体特征,输出是镜头的类型和时间边界,这是它的主要思路。对这些比赛也有很多人去做统计

利用深度的深度特征来检测事件的时候,一定要准备好一个数据,这个表里面是针对体育视频里面不同的比赛的类型准备的数据。如果想把深度学习的算法用好,数据是基础。

这个方法好处:

特征的泛化能力强,同时可以提取不同层次的特征,可以在不同的任务上的重复使用这些特征。但也有缺点通过大量的实验发现这些特征不可解释,原来在传统的特征里面,那些各领域知识在深度学习课程里面无法融入进去,而那些领域知识,有的时候线索是非常重要的,它只能从已有的数据中去学习,无法验证数据本身的正确性,它的数据较少的事件,他的训练效果就差了,比如像90分钟的足球比赛,进球没几个,还有一些,比如像越位检测起来就更困难,因为样本少,200场比赛加在一起,可能也就几百个样本儿

像其,很多的比如射门等等,远远比这种多,而进球就更稀少,通过越少的事件,数据越少,用这种深度学习的方式检测的准确度就越低

的全局特征不充分局部特征有的时候难以提取因此单纯依靠深度学习来检测事件的方式从目前得到的结果来看其实是不准确的

怎么做目前一个大的趋势就是把传统的手工特征和深度学习的特征结合在一起把深度学习一块不要把所有内容都交给深度学习而是把深度学习的特征仅仅作为特征之一传统的提取不到的特征用深度课程去代替只要是传统的特征好用的依然用在用传统特征因为传统特征有很强的语义性,尤其深度学习越火的时候盲目的使用深度学习

以为它包治百病,这个观点其实是错误的。深度学习只能给出结果,它为什么这么好,有的数据解释不了,为什么这么差,有的数据也解释不了。

只看它的结果就有问题刚才说的这番话其实是经过大量的事件验证的,费了很大的劲准备数据集有时候甚至准确率降低了这个时候是得不偿失的,因此也在事件的检测方面要重新审视传统和深度学习特征们彼此的优缺点在正确的地方使用正确的方法那才是未来解决这个问题的正确的路线

相关文章
|
11月前
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
12646 46
|
机器学习/深度学习 TensorFlow API
机器学习实战:TensorFlow在图像识别中的应用探索
【10月更文挑战第28天】随着深度学习技术的发展,图像识别取得了显著进步。TensorFlow作为Google开源的机器学习框架,凭借其强大的功能和灵活的API,在图像识别任务中广泛应用。本文通过实战案例,探讨TensorFlow在图像识别中的优势与挑战,展示如何使用TensorFlow构建和训练卷积神经网络(CNN),并评估模型的性能。尽管面临学习曲线和资源消耗等挑战,TensorFlow仍展现出广阔的应用前景。
359 5
|
算法 程序员 开发工具
C语言编程规范
C 语言编程规范有助于提升代码的可读性、可维护性和可移植性。主要包括:命名规范(如 `my_variable`、`MAX_SIZE`)、代码缩进与空格、注释(解释逻辑但不过度)、函数设计(短小精悍、参数不超过三个)、错误处理、避免魔法数字、选择合适数据结构、使用标准库、保持代码格式一致及版本控制。遵循这些规范能显著提高团队开发效率和代码质量。
1429 2
|
开发框架 前端开发 JavaScript
网页CAD中二维CAD图转三维CAD的方法
本文介绍了一种将网页CAD中的二维图纸转换成三维模型的方法,特别聚焦于通过拉伸平面图形至一定高度来实现三维效果。文中利用了mxcad和mxcad3d两个框架,前者负责读取和解析二维CAD图纸,后者则基于这些数据构建三维模型。文章详细阐述了安装配置步骤及代码实现细节,包括创建项目、安装依赖、编写HTML与JavaScript代码等,并提供了完整的示例代码。最终实现了从二维图纸自动转换并展示三维模型的功能,同时添加了交互元素以方便用户操作。
网页CAD中二维CAD图转三维CAD的方法
|
JavaScript 前端开发 开发者
深入理解 TypeScript:从基础到进阶
TypeScript 作为 JavaScript 的超集,通过静态类型系统提升了代码组织与错误检测能力,广泛应用于前端开发。本文介绍 TypeScript 的核心概念(类型系统、接口、类、模块)及基础特性(基础类型、接口、类和继承),并深入探讨泛型、高级类型和装饰器等进阶特性,帮助开发者构建更健壮、可维护的应用。
|
机器学习/深度学习 人工智能 测试技术
NeurIPS D&B 2024 突破短视频局限!MMBench-Video解读MLLM视频理解能力
GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。
|
数据采集 存储
万亿token!史上最大多模态数据集诞生
【8月更文挑战第18天】MINT-1T是由Anas Awadalla等创建的迄今最大规模开源多模态数据集,含1万亿文本token及34亿图像,规模为现有数据集10倍。它引入了新数据源如PDF和ArXiv论文,提供多样化训练材料。经验证,使用MINT-1T训练的模型性能优异。尽管存在数据质量等挑战,但通过预处理可克服。论文详情见[链接]。
439 3
|
机器学习/深度学习 存储 传感器
足球黑科技之AI与足球智能分析
最近的足球盛宴引发了球迷的狂欢,阿根廷对沙特的越位,日本对西班牙的出界球,葡萄牙对乌拉圭C罗是否碰到了球等热点事件是否引发了你的关注呢。其实在这些热点背后,离不开足球智能裁判的辅助,足球作为全世界最受欢迎的运动,也一直致力于和高科技的结合。此篇文章,给大家带来了足球视频智能分析,让我们一起看看AI是如何在足球运动中大放光彩的的吧!
1894 3
足球黑科技之AI与足球智能分析
|
机器学习/深度学习 人工智能 自然语言处理
TensorFlow在自然语言处理中的实践
【4月更文挑战第17天】本文探讨了TensorFlow在自然语言处理(NLP)中的应用,包括文本预处理、特征表示、模型构建、训练与评估。TensorFlow提供工具简化文本预处理,如`tf.text`模块进行分词。利用`Tokenizer`和`to_categorical`进行特征表示。通过`Embedding`、`LSTM`等构建模型,并用`model.fit`和`model.evaluate`训练及评估。实践中,可借助预训练词嵌入、序列填充、注意力机制和迁移学习提升性能。TensorFlow为NLP任务提供了高效解决方案,未来潜力无限。
|
网络协议 Linux
关于xenomai3 RTnet的一点记录
Xenomai3的RTnet协议栈支持TCP和UDP,但不包括IGMP,且ARP支持有限,可能导致延迟或错误。服务端仅允许单个客户端连接。启用`CONFIG_XENO_DRIVERS_NET_ADDON_PROXY_ARP`时,RTnet与rtproxy MAC相同,否则rtproxy不支持ARP。TCP/IP的实时性不足,但Xenomai4的EVL核聚焦二层实时网络。更多详情见链接。
328 0