数字视频基础(上)| 学习笔记

简介: 快速学习数字视频基础(上),介绍了数字视频基础(上)系统机制, 以及在实际应用过程中如何使用。

开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算数字视频基础(上)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/811/detail/15675


数字视频基础(上)


内容介绍:

一、基本概念

二、模拟电视的制式

三、视频扫描方式

四、视频的数字化

 

一、基本概念

视频又称运动图像,图像序列按照一定的频率播放,就像动画一样,视频本质上也是动画。

连续的随时间变化的一组图像就是视频,因此视频里最主要的就是图像,图像的一些属性在视频里面都是有的,只不过它是多帧图像,有时间维度,同时还有同步的声音一起呈现出视觉和听觉的效果。

image.png

也就是说视频是有配音的,是有音频信号的。电视有图像有声音,而图像和声音在视频里面是分别用两个通道分别存储的,本节主要介绍图像数据流,音频所有的规律是遵循数字音频中介绍的概念的。

常见的视频信号包括电影、电视、动画

视频数据的特点:

信息确切、直观、生动

信息量大、数据量大

压缩的视频信息实时性强

对计算机处理能力要求高

现在小朋友坐在电视机前可以安静地目不转睛地看动画,做别的事情可能就没有这么认真。因为视频信号非常生动、直观、形象。小朋友听故事的时候可以做别的事情,但是看动画片基本上两眼紧盯着屏幕,所以家长一般不允许长时间看屏幕,每天限定时间。

它的信息量很大,由于视频的信息量大,因为多帧图像连续播放,同时还有声音,所以说信息量大,同时数据量也大。

压缩视频可以进行实时的播放,同时也要求计算机的性能要很高,因此高清的视频处理需要高新能的计算机的。以手机为例,手机播放视频耗电就会很快,而且播放一段时间手机就会发烫,因为视频处理需要CPU高速的运转,而高速运转的原因是处理复杂,数据量大。


二、模拟电视的制式

不同国家有不同的制式制式不同,其中的参数也不相同。

NTSC制式美国、日本、台湾地区使用的,每一帧也就是每一幅图像是1525行,每秒钟30帧,30大于24,在视觉滞留效应中讲过,大于24就可以给人带来连续的效果,一幅图像可以在人脑中停留1/24秒,大于1/24,就有一种连续的感觉。还与国家发电频率有关,60Hz 取一半就是30,有的是每秒钟25帧,是因为国家的电压为50Hz。这样便于控制。

它是隔行扫描,每一帧先扫描奇数行,再扫描偶数行,共同生成一幅完整的图像;宽高比:4:3电影为3:2;使用的颜色模型YIQ。

PAL制式中国、多数欧洲国家使用的。每帧625行,每秒25帧,隔行扫描宽高比:4:3颜色模型YUV。区别是把亮度单独分离出来,UV 和 IQ 分别指蓝色差和红色差。

SECAM 制式法国、俄罗斯、东欧和中东国家,基本参数与PAL类似,不同的是色度信号是频率调制(FM)两个色差信号:红色差和蓝色差按行顺序传输

HDTV(高清晰度电视)图像清晰度是现行电视的2倍宽高比:16:9,多声道环绕声音。早期的很多大片都是HDTV,它的声音可以支持7.1以上的格式,现在除了 HDTV以外,还有UHDTV,超高清电视,如4K电视8K电视。目前热销的是4K。电视的屏幕越来越大,如果本身分辨率低,原来小电视上看到的图像放到大电视上看效果不好,因此4K 可能未来会成为主流。

模拟电视系统的对比:

image.png

模拟电视有制式,在数字电视中制式就不那么重要,因为已经把他变成了全是二进制的数。


三、视频扫描方式

所谓逐行扫描,就是一行挨着一行地扫描

image.png

隔行扫描就是把一幅图像分成奇数行和偶数行,奇数行扫一遍,偶数行扫一遍,最后这两个合在一起就是一幅完整的图像。

image.png

为什么这么做呢?相同的行数,如果逐行扫描,从第一行扫到最下面一行,使用时间很长,如果只扫描一半奇数行,就节省一半的时间,给人的感觉上画面就会稳定一些,先扫描一半,眼睛中已经存在一个画面,再扫描一遍是使得画面更清晰。如果变化很快的话,只扫描上半部分,下半部分没扫,就会有一些模糊的感觉。因此现在的电视采用的都是隔行扫描。

 

四、视频的数字化

视频信号从模拟信号到数字信号,图像是把空间的点变成数字的点,每个点由若干位描述它的颜色深度,视频里除了空间的图像之外,增加了时间维度,即帧频,每一帧图像就是数字信号里时间维度上的离散图像。帧频越高,数据量越大。由25帧变成30帧,每秒钟多了5幅图像;变为50帧,就多了一倍的图像。但总的来讲,其他的帧频确定之后,主要视频质量就取决于每一帧图像的分辨率以及颜色深度,这在图像里已经讲过了,这里不再赘述。

image.png

相关文章
|
1月前
|
自然语言处理 API 内存技术
Qwen3-LiveTranslate-Flash:视、听、说全模态同传大模型
通义千问Qwen3-LiveTranslate-Flash推出实时多模态同声传译,支持18种语言及多种方言,融合视觉信息增强理解,实现3秒超低延迟、高精度语音翻译,适用于复杂环境下的跨语言交流。
305 1
Qwen3-LiveTranslate-Flash:视、听、说全模态同传大模型
|
人工智能 自然语言处理 大数据
阿里云百炼,带你搭建外贸图片翻译助手智能体 从阿里云OpenAPI导入机器翻译API,实现OpenAPI自定义MCP
阿里云提供一站式内容本地化解决方案,涵盖图文视频多模态翻译。通过机器翻译、图片诊断、标题优化等API,助力跨境电商高效实现商品信息多语言智能转换与优化,降低人工成本,提升出海效率。
333 0
|
测试技术 领域建模 定位技术
基于事件风暴的需求分析 | 方法案例一
事件风暴(Event Storming)源自领域驱动设计社区,由 Alberto Brandolini 在2012 年发明[1]。 事件风暴最早的名字是基于事件的建模(Event-Based Modeling),正如这个名字所暗示的,事件风暴在发明之初的核心目的是领域建模,在今天的大多数文献和实践中,事件风暴的核心关注点都是领域模型和软件架构。
4701 2
基于事件风暴的需求分析 | 方法案例一
|
7月前
|
机器学习/深度学习 PyTorch 数据处理
PyTorchVideo实战:从零开始构建高效视频分类模型
本文详细介绍了基于PyTorchVideo和PyTorch Lightning构建视频分类模型的全流程。通过Kinetics数据集,利用3D ResNet-50实现高效动作识别。教程涵盖数据加载与增强、模型构建及训练流程,结合两大框架优势,简化开发复杂度并提升性能,为视频理解任务提供完整解决方案。
367 3
PyTorchVideo实战:从零开始构建高效视频分类模型
|
自然语言处理 算法 编译器
编译原理复习一:正则表达式-NFA NFA-DFA DFA最小化(附题目与答案 超详细)
编译原理复习一:正则表达式-NFA NFA-DFA DFA最小化(附题目与答案 超详细)
1166 0
|
10月前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
|
机器学习/深度学习 人工智能 搜索推荐
【AI 场景】如何使用 AI 向客户推荐个性化产品?
【5月更文挑战第3天】【AI 场景】如何使用 AI 向客户推荐个性化产品?
【AI 场景】如何使用 AI 向客户推荐个性化产品?
|
存储 安全 网络安全
数据库安全措施有哪些?
【8月更文挑战第15天】数据库安全措施有哪些?
999 1
Python删除 字符串中的\的方法
这篇文章介绍了如何在Python中使用`replace`方法删除字符串中的特定字符,如制表符(`\t`)、空格(` `)以及其他指定字符,同时指出这种方法返回的是新字符串,不会改变原始字符串。
|
数据采集 数据可视化 数据挖掘
NumPy在数据分析中的核心应用
【4月更文挑战第17天】NumPy是Python数据分析基础库,核心应用包括数据结构化、预处理、统计分析和可视化。它提供`ndarray`多维数组对象及灵活索引,用于数据存储和处理。数据预处理支持缺失值处理,统计分析涵盖描述性统计和相关性分析。虽不直接支持数据可视化,但能与Matplotlib等库集成绘制图表。掌握NumPy能提升数据分析效率,助于挖掘数据价值。