全球顶级赛事实践：视频云制播在奥运赛事的关键技术与创新-阿里云开发者社区

全球顶级赛事实践：视频云制播在奥运赛事的关键技术与创新

内容介绍：

一、视频云制播整体技术框架

二、视频云AI制播技术重构体育赛事全链路

三、视频云制播+AI在奥运等体育赛事的技术创新与应用

四、视频云制播+AI未来展望

五、央视频在奥运等全球顶级赛事成功实践和关键技术创新

本次分享的主题是全球顶级赛事实践：视频云制播在奥运等体育赛事的关键技术与创新，由阿里巴巴智能集团视频云资深技术专家邹娟和中央广播电视总台视听新媒体中心央视频前端产品负责人赵鹏伟分享。

刚刚结束的巴黎奥运会不仅是一场体育竞技的盛宴，更是一个科技创新的平台。近几年，在赛事的制作和转播领域经历了前所未有的变革，观众对于赛事的观看体验追求日益向质量更高和内容更丰富的方向发展。这一切都离不开云计算与AI技术的支持与推动，阿里云作为奥运会的官方合作伙伴，在以奥运为代表的体育赛事领域拥有非常丰富的新的技术实践。

本次分享围绕以下部分进行：首先，介绍奥运等大型体育赛事流程简介，引出阿里云支持奥运等大型体育赛事的视频云制播的技术框架；其次，介绍融入了AI的视频云制播技术重构体育赛事全链路的思路；接下来，重点介绍视频云制播+AI技术在奥运等体育赛事的技术创新与实践；然后，针对科技奥运在视频方向的展望；最后，介绍央视频在奥运等全球顶级赛事成功实践和关键技术创新。

一、视频云制播整体技术框架

1、奥运等大型体育赛事流程简介

奥运等大型赛事的整体流程都有一定的共性，以体操的跳马为例。每一个项目在最原始的信号源都是有多个机位组成的，有的是固定机位，有的是移动机位。除了机位的视频信号之外，还有现场多个国家的解说员现场解说。这一系列音视频的信号源汇聚到现场的制作转播系统之后，再经过全球的实时分发到普通的观众。

在现场的制作转播系统中，可以分为两部分：第一部分是偏向于转播导播的的系统，那系统是奥运转播的一个核心的系统，如EVS慢放、子弹时间、直播数据渲染，此外还有很多实时制作的系统；第二部分系统是偏向制作的，视频信号通过转播系统由导播去切换画面后，会在一个相当短的时间内由各种各样的现场制作系统生产出不一样的条目，这些条目会根据一定的赛事情况实时插播到导播的主画面上。如EVS会把实时的慢放镜头插播到转播的主画面上；子弹时间是一种更进阶、更沉浸的全景回放的镜头，它也会在片段制作完成后插播到转播的主信号上，还有一些实时的数据的叠加，如赛事队伍、比分牌等，今年也在转播的画面渲染和叠加了实时运动轨迹等内容。

整个的现场制作转播经过一系列的复杂的操作，最后输出了一个program的信号，即观众在电视台上看到的每一个频道输出的主信号全球统一的，由OBS统一制作直播的公共信号。在很多的新媒体平台包括央视频，我们可以看到多个机位的其他的单边的信号，我们可以选择不同的机位观看。但经过奥运会转播，官方的直播公共信号只有一个，每一场比赛就是一个program信号，这个信号和单边的信号都会通过全球的实时分发系统汇集到观众。TV主要以program导播输出的节目信号为主，各种新媒体的平台，包括OTT、PC、手机则角度更加丰富。这些内容通过另外一个通道进入到后期制作的环节。在后期制作环节，我们可以用上更加丰富的特效、滤镜和转场效果，经过导演和编辑的设计，把的精彩的回放、集锦等情况在后期的形式输出到电视和多种平台上。对大型赛事的流程了解有利于了解视频云新技术，了解这项技术在整个链路中的位置，以及对整个流程起到的作用。

2、整体技术框架

最下层是云制播基于分布式云原生的架构。云制播支持多云平台，对于奥运赛事这种大型比赛的场景，它对于带宽的要求较高，有很多的公共云和混合云综合利用的结果。

中间是云制播架构核心，分成左右两部分。左边是云智播的基础技术，涵盖了支撑所有体育赛事处理与生产转播媒体的引擎和智能调度，可以支持智能的算子编排，通过统一的媒体处理框架把各种信号（直播/素材）经过导演的设计和编排，输出到最后的分发通道。同时，智能调度可以把不同类型的任务根据当时的情况选择不同的机型渲染。右边是真正的云制播服务技术，服务最上面的直播场景。

最上面是直播场景，从制到播，可以分为四部分，第一部分与采集、制作、媒资相关，第二部分与处理和渲染相关，第三部分与传输跟分发有关，第四部分是最终呈现的渲染效果。

因此，云制播服务技术是完全按照制播的流程做的设计，整体分为实时的制作体系、实时的赛事分发体系以及后期制作体系和统一的媒资管理体系。

二、视频云AI制播技术重构体育赛事全链路

按照赛事比赛进行的生命周期，体育赛事的全链路分为了五个阶段，即赛前准备、赛时制作转播、赛时的多平台分发、赛时或赛后的剪辑二创以及赛后分析。在每个环节，云制播和AI技术都做了很多创新，主要的创新点在应用实践环节会重点介绍。

我们对体育赛事全链路做了另一个层面的抽象。在整个赛事的全链路中，赛时的制作转播和多平台分发是重中之重，赛时和赛后剪辑二创的时效性也相对较高，多要求在半个月之内完成，又叫准赛时系统。因此，赛事的全链路分成两部分，即制作转播部分和分发播放部分，且以赛时为主。对于制作转播部分，基于迁移上云的优势，可以做到多语种的解说、多视角的同步，可以应用更多的实时AI技术，让内容更丰富。在分发播放部分，更强调分发播放的高可靠性和低延时性，提升观众体验，提升传送到不同新媒体平台的画质，保证观赛体验的流畅度。在这两个系统之间还有赛事的媒资和搜索的系统，用以保证整个节目实时流和整个素材体系的充分利用和搜索的顺畅。整个的过程都基于AI驱动，具体的应用点会在后文中展开介绍。

三、视频云制播+AI在奥运等体育赛事的技术创新与应用

1、赛前准备/赛后：视频分析

赛前准备与赛后分析有很多共通之处，它们都是针对比赛画面的动作做分析，既可以用于比赛观看，为观众呈现更好的效果，也可以用于运动员和教练员的视频分析，帮助他们能够更好地参赛。如羽毛球比赛中，可以通过AI通过人体骨骼点的识别、姿势的识别做训练动作的分析。赛后可以针对实时比赛动作分析。所有动作分析的精度精确到秒，可以通过实时的数据分析运动员的挥拍角度、腿部弯曲动作、手部动作等等，复用于赛后的比赛分析和赛前训练。

2、赛时制作转播：云上转播

云上转播早在2018年的阿根廷青奥会上就做了第一次尝试，现在已经非常成熟，这里不做赘述。云上转播能够把转播活动的各种信号通过阿里云不同区域的云上云下VPC系统推送到各种转播机构和播出的网络中，供全球的观众观看。这些信号既包括制播的公共信号，也包括可以交给各个转播机构的播出控制信号，以及现场的采访连线信号等。除了原始的大型的设备以及最后的终端，中间的链路都部署在云上，这项技术在北京冬奥会上已基本实现了全面上云。

（1）多镜头回放技术

2024年4月份奥委会颁布了奥林匹克AI的议程，提出了国教委会开展人工智能的框架，也开始引进了全球体育AI的热潮。因此，2024年的巴黎奥运会大幅采用了阿里云AI增强的全新转播技术，即多镜头回放的系统。

这套系统最早在北京冬奥会上就有过实践，当时北京冬奥会使用了两套系统，但其使用的是相对本地的拼接方式，效率较低。多技能回放的片段生产要分钟级，很难找到合适的时机插播到制播的Live信号中。但在本届巴黎奥运会上，提升了流程的时效性，同时增加了部署的场馆和项目（12个场馆和24个项目），在具有剧烈运动和大幅度动作的赛事项目上都使用了该系统。

以男子百米冲刺为例，最开始使用该系统是希望给观众带来更丰富的视觉体验。但在最后冲线的那一刻，帮助观众还原0.05秒差距下不同角度、不同运动员的身位差别，这是意外之喜。

①采集方案

采集方案相对复杂，阿里云云制播基于场馆的制作计划、球场的结构、观众的动线，沿着场馆做各种形态的部署。同时，场馆会同时开展多种比赛项目，所以在同场馆支持多套采集方案。

②云端渲染

云端渲染发挥了巨大作用，现场有很多摄像头，这些摄如头有海量的数据，这些数据通过本地的相机阵列采集多个4k实时画面，把画面和相关的素材切片传送到云端，进行3d建模和实时渲染。从本地的数据上传到云端，在云端进行3d建模和渲染，再到把片子拉取到本地，推到EVS慢放的过程，整个过程仅需不到20秒。因此，可以能够把这项技术用在Live的实时比赛信号中。

在云栖大会三号馆有现场的体验，用拳击的VR游戏加子弹时间做了集成，可以玩虚拟拳击游戏，在拳击馆中部署了一圈摄像头，可以把精彩的镜头通过子弹时间制作出专属的小视频。

（2）多语种解说

在一个国家一般只有一种语种的解说，如央视有中文解说，但如果其他国家要看央视的转播，则需要其他语言。阿里云云制播创新了一种新的技术——多语种、全维度的视频同声传译的技术，它可以把一种语言解说的赛事实现多语种的同播，还可以完全复刻解说员的声音和情绪。这也是这项技术最大的特点，即可以完美复刻原视频解说的解说员的音色、音量、语气、情绪、重音等等，且不会受现场环境声的影响。

这项技术不仅可以用在体育赛事，还可以用在其他的场景。一般解说没有字幕，但如果是新闻报道，如说赛后的发布会，在多人进行时还可以添加字幕，与受访人员的口型保持一致。另外，如果这项技术用于后期赛事报道的综合制作，还可以更可控、更精准地修改翻译之后的文本。

（3）多视角同步

多视角同步可以在一些新媒体的平台上看到，但不同的是，阿里云云制播可以在同一屏幕上由用户主动选择我的视角，把不同的视角在同画面进行渲染。我们常看到的多视角切换只能看到切换完成后的画面，而多视角同步技术可以把多个视角的画面整合在整体的屏幕上。同时，还可以选择自己的角度，在云端的实时性已经做到了4帧以内的误差，画面之间时间戳不同步的情况肉眼不可辨别。此外，还支持在云端设置同步间隔，或由推流的设备端设置，这部分也与专业的设备厂商做了联调和联动。优酷使用该项技术已有近3年的时间，收到了较好的效果，一定程度上提升了他们的观赛时长。

3、赛时多平台并发

（1）高可用&低延时直播分发

赛时的多平台分发最关键的是关于高可用的直播体系和观众的低延时直播分发的体验。

①端到端高可用

A.主备合流

阿里云云制播设计了完整的从端到端的高可用链路，尤其是直播的主备合流链路，可以针对直播流在不同时间段的帧率，根据现场的网络情况选择合适的主备链路做切换，对观众来说这一过程是无感的。这样可以保证制播链路的高可用，在一条链路断连时另一条链路可以无缝续上，减少在比赛的过程期间由于意外情况造成的对观赛体验的影响。

B.广目监播

阿里云云制播的赛时分发不依赖于任何硬件，完全依赖云端，可以把不同的源流、转码流或不同的画面做同频的监播，可以同时支持16路合流，并且可以自动地通过AI的QC质检环节，完全复刻线下的如多画面分割器的功能在云上做更低成本、更高效的渲染效果。

②低延时协议

阿里云云制播是支持非常多种低延时协议，包括RTS、LL-HLS、SRT，这些协议都复用了同一张GRTN网络。换言之，GRTN网络可以针对不同的协议选择不同的路径，达到最短的传输链路，完全复用超3200个CDN节点，让这些实时流跑在同一张GRTN网上。关于延时体验，RTS可在一秒以内，LL-HLS、SRT可在3-7秒。同时，再配合播放器的SDK，能够更加高效地部署。此外，支持多个平台，在各种终端平台上都能够播放更低延时协议的流。

（2）窄带高清转码&超高清处理

①窄带高清转码

在分发前置环节，要有更好的体验，就需要覆盖更多的新媒体平台以及更多的手机型号，转码的环节必不可少。我们需要通过更低的码率收获更高的画质。这一过程涉及了很多技术，这里主要介绍窄带高清转码技术。经过窄高清处理后的视频，清晰度有了明显提升。窄带高清2.0技术可以节省20%-70%的码率，不仅能够提升画质体验，还能降低各个平台分发带宽的成本。这是由于我们把前处理的算法和编码算法做了一体化设计，把人眼关注度更高的地方做增强，同时减少冗余成分，在增加画质体验的同时降低带宽。

②超高清处理

在比赛场景下，源画面可达4K超高清，很多情况不需要超高清处理，甚至不需要插帧。当然如果面向新媒体分发时，可能会拿不到更好的源，则需要插帧。但在更多的场景下需要的是全链路HDR技术。2023年杭州亚运会比赛现场的画面多是HDR的，但当周边画面需要跟赛事画面做整合播出时，就需要在混合场景下做HDR的增强。现在的全链路HDR转码和HDR+、HDR 2、SDR+的转码可以把HDR的画质带给每一位观众的不同型号的手机，即便手机不支持HDR播放，也能够达到准HDR播放的体验。

4、赛时/赛后二创：一键成片&图动时光

（1）一键成片

一键成片主要是在不生成新素材的情况下，利用现有的素材进行智能的挑选、截取、编排和生成。其应用场景非常广泛，如传媒和体育赛事的场景。这种场景，大家对于素材的严肃程度要求较高，很难凭空造出从无到有的素材减少比赛的真实性，一般会用原始的素材。整个的过程全部通过AI生成，输入非常简单，素材可能仅是一场比赛的完整视频，提出需求，如需要集锦画面，就可以通过云端的LLM、分镜、智能搜索、智能BGM和配音完整输出成片，输出的成片可以直接用于播放，如果对于成片的效果有更高的要求，也可以进行二次可控的精编。

（2）图动时光

关于图生视频场景，很多场景下我们有很多的图片内容，但视频内容都是ODS转播的。如果是在现场拍摄的照片，要做出视频效果，就可以使用图生视频的技术，它可以让图片内容真正地动起来，同时做风格化，最后通过一系列的剪辑包装输出成片，大大提升了赛事内容的传播性。

5、赛事媒资管理

这部分是关于支撑赛事的直播流和素材媒资和搜索的分享。

（1）智能媒资内容结构化

传统的媒资在现场就需要有各种各样的ODF、BDF的信息，同时还要在现场做各种场地信息的打标，在拉取到后台媒资之后，还要再用大量的人员做编目。智能的媒资内容结构化可以省略这些人工环节，让以往沉睡的媒体资源焕发新生。智能的媒资内容结构化基于视觉音频和文本多个维度产生多维的向量，改变上一代的AI标签，把所有的信息转换成文本或带简单时间戳的形式，丢失掉大量的信息。从比赛层面以及比赛下每个分片和分段（片段、场景、镜头）的情况，不管是整段还是分段的源数据都可以通过媒资内容做结构化，结构化的内容可以为后面的搜索、推荐、浏览、二创提供最原始的弹药。

（2）统一搜索系统

基于媒资内容结构化，在各种索引之上构建统一的索引，既推出了基于大模型的高维多向量的索引，同时也可以利用电视台和媒体机构源大量的编目数据。因此，统一索引是既兼容新一代大模型的向量索引，同时也支持传统的媒资源数据和上一代AI标签的索引。传统的多模态搜索会把所有的内容都降维成二维文本索引，而大模型的自然语言搜索可以把原始的内容做成高维的向量，同时把搜索语句也做成高维的向量进行匹配。这些都是基于语义分析建立的索引，可以搜索到无法用标签编目出的内容。如新华社利用云制播技术在现场的报道，在搜索完整的句子时能够较为精准地定位到视频，同时，还可以精准定位到所命中的片段，此外，基于全语义理解支持多语种。

四、视频云制播+AI未来展望

1、更多AI实时制作

在最近几届奥运会上，我们越来越多地在实时制作场景用到了AI的技术，但在子弹时间上还有提升空间，如更好地兼容现场的灯光效果，使得整个子弹时间的的画面动感更强，产生更多的AI直播的实时数据更好地渲染到整个比赛画面中，互动感更强。

2、个性化导播

大型赛事的机位非常多，但真正能在电视上看到的program只有一路，造成了大量内容的浪费。在未来的某一个时刻，或许每一个观众都可以做自己的导演，按照自己的想法编排想看的赛事内容，包括动线、叙事结构。如果我们把所有机位的信号都上传到云端，这一天不会太远。

3、沉浸式的观赛

虽然现在VR和AR的热度相较于前几年有所回落，但仍旧非常值得关注。我们需要把VR和AR的技术与AI融合，因为人类对于视觉体验的追求是永无止境的。

五、央视频在奥运等全球顶级赛事成功实践和关键技术创新

这部分主要从用户侧介绍央视频围绕AI做的新尝试。

1、央视频在奥运期间的主要功能呈现

（1）央视频启动后的首页

原本央视频是综合性的APP，但在奥运期间，整个版面无论是焦点图还下面的宫格，以及所有版面运营组件，都是在围绕着奥运的重点的赛事进行组织编排。

（2）奥运的赛事中心

赛事中心从官方接入了完整的赛事数据接口，此外，还从官网上抓取了一份新的数据进行交叉验证，保证赛事数据的准确性以及更新的实时性。多达7000多场比赛的赛程信息都可以在赛事中心找到，包括各项重点比赛尤其是中国队的焦点赛事，也在每一条赛程上用特殊的icon做展示和标识，能够让用户更快捷地找到。

（3）央视频的奖牌榜

奖牌榜支持实时更新，在中国队得到奖牌时会自动化、实时地关联每一条夺金瞬间的视频，保证用户能够看到实时的夺金画面。

（4）杨永平的直播间

2、央视频奥运答卷

（1）手机端

第一，奥运会历时17天，其中16天央视频霸榜了苹果应用商店的双榜第一名。

第二，奥运会共有7294场比赛，央视频客户端做到了所有比赛的全部直播，这也是新媒体端相较于电视端的重大优势。乒乓球男子团体赛播放量最高，单场比赛观看最高人次达7000万以上。央视频旗下所有的平台在巴黎奥运期间全网总阅读量突破145亿。

第三，客户端日活是达到了东京奥运会的两倍。考虑到时差问题，东京奥运会更适合国内的观众收看，但得益于本届奥运会前期的宣传工作，包括焦点赛事的影响，整体的日活达到了东京的两倍。根据第三方平台的数据，领先咪咕超过500万，作为体育垂类的二部，这个数量级非常客观。

第四，除了版面呈现的功能之外，在奥运期间也推出了竖屏直播观赛，在智能体、AI数字人等前沿创新功能。

（2）多端持续发力

除手机端之外，央视频今年也在多终端投入了更大的开发资源和精力，在PC、Pad端也做到了全赛事的制播。尤其是Pad端，奥运历时17天，霸榜17天，比手机端排名更出色。

电视投屏看奥运。体育赛事在大屏上观看体验效果会更好，结合央视频电视投屏助手，可以将4K信号投到电视上，发挥大屏的优势。在奥运期间的大屏投屏用户激增。

央视频在车载端的尝试。2024年央视频着重开发了车载端，用户可以在车里随时随地收看奥运赛赛事画面。

3、央视频关于体育和AI的结合方面做出的尝试

（1）竖屏赛事直播

央视频竖屏直播已有多年，最早是从卡塔尔世界杯，后续有苏迪曼杯、世乒赛、杭州亚运会、巴黎奥运会等。在卡塔尔世界杯时，央视频视频直播面临着较大的困难。因为对于奥运会综合性的赛事，如跳水，只要机位合适即可拍摄到跳水台的画面，无需担心运动员出框。但足球不同，画面移动切换非常快，当时为了实现横屏转竖屏的裁切，应用了AI技术，实时追踪球的运动轨迹，对横屏画面做到准时采集，既保证了用户观看体育赛事的实时性，也能保证画面的完整性。

（2）AI数字人矩阵

在2024年上半年，AI尼格买提、AI马凡舒、AI王冰冰同框做了央视频AI盛典的实时直播画面。央视频最早在2021年两会期间就推出了AI王冠，在两会的重点新闻报道通过AI数字人的形式播报给用户。2024年在奥运会期间，也会每天生成对昨日精彩瞬间、精准画面的盘点，通过数字人将其播报出来。

2022年的冬奥会期间，做了AI虚拟的手语人聆语，通过AI实时将解说员所说的语音信息通过手语来表现出来，准确率达到了90%以上，可以帮助视听障碍的观众理解比赛画面内容，是一个公益性质的项目。

AI央小频是央视频的虚拟形象，在端内可以与用户进行AI互动。

（3）AI智能体以及AI智能的互动玩法

2024年的AI盛典是央视频首次对用户端尝试互动玩法。央视频作为央媒在互动尤其是智能体相关的应用，要尽量确保内容的完全、准确，面临着比商网更大的监管压力。众所周知，GPT的内容不能做到100%完全可控，所以央视频在推出相关功能时，内部也面临了很大的压力。最终，在阿里云技术的支持下，央视频在AI盛典上实现了兵马俑“开口”，对被用户所熟知的国宝大熊猫萌兰、花花做了二次加工，还通过虚拟主持人形式直接调用GPT做文字互动，还通过AI能力生成了智能海报。

AI盛典整体的数据指标达到了预期，当时有超过一半的直播用户尝试了互动玩法，有26.6%的评论是通过AI生成的，用户无需修改，一键发布即可。当时用户在转发直播间时，也是通过AI自动生成了分享文案。在直播观看过程中，有超过40%的用户尝试了AI摘要功能，将直播画面通过文字进行总结，方便用户浏览直播的内容。在AI盛典时期间，央视频对用户侧做了AI尝试，发现效果远超预期，这也更加坚定了后续包括奥运会期间做互动尝试玩法的信心。

①奥运观赛智能体

央视频在奥运期间推出了奥运观赛智能体。只要与智能体对话，如“今日的比赛看点是什么”，智能体就能从整个央视频的体育赛事媒资库中找到当天的重点直播信息。在做智能体时，央视频与整个赛事数据做了深度的打通，由于赛事数据每时每刻比分都在变化，赛程都在更新，也会根据官方的要求做赛事调整，工作比较困难。但央视频在支持库的维护上做了实时化的调整、更新，用户无论何时询问当天的重点比赛或某场比赛的结果，都可以拿到最新、最准确的呈现结果。最终，大概有25%的用户选择通过智能体寻找意向的比赛。由于奥运会比赛场次多达7000多场，通过这样的形式能够极大简化用户的操作路径。

②奥运AI评论帮写功能

奥运AI评论帮写功能是央视频在奥运期间推出的一项重点更新。央视频作为小屏端直播，和大屏最大的区别是评论区非常热闹，尤其是中国运动员进出场时，每个人在评论区的加油呐喊声都会形成规模，尤其是粉丝群体较多的运动员，每当有比赛时，粉丝会有组织地在评论区刷屏。为此，推出了奥运AI评论帮写功能，当用户点击评论框的时候，会直接预制好包含了emoji、各种加油文案的文字，用户可以选择直接发布或进行简单修改之后发布。这样，每一条评论都有相似性，但又不完全相同。当时，围绕乒乓球、羽毛球等中国队的优势项目，通AI共撰写评论超过400万条，单场最多达到了56万条，占总评论数的26.9%。

在阿里云对央视频的大力支持下，央视频对AI技术的应用更加广泛，尤其是重点项目，包括龙年春晚、三中全会、中非合作论坛、欧洲杯、巴黎奥运会等每个大事件都离不开阿里云的付出和支撑。在奥运期间，阿里云连续17天24小时不间断地守护央视频，实现了奥运会的顺利呈现。未来也希望能与阿里云一起建设央视频，在中国的体育赛事和总台更优秀的内容。

以上就是本次分享的全部内容。

全球顶级赛事实践：视频云制播在奥运赛事的关键技术与创新