全球AI新浪潮:智能媒体服务的技术创新与AIGC加速出海
内容介绍:
一、智能媒体服务国际化产品技术创新
二、AIGC驱动内容出海技术实践
一、智能媒体服务国际化产品技术创新
对于视频云服务或视频应用来说,媒体服务广泛存在。如今各类视频应用中,包括直播视频点播、知识音频等。国际化新市场下有很多机会,也看到了差异和挑战。今天借此契机,分享在产品和技术方面的实践与创新,希望阿里云视频云智能媒体服务能为全球用户提供专业、智能、稳定、优质的媒体服务。
本次分享分为四个部分。首先,讲讲市场洞见。我们发现媒体服务已成为视频应用的升级引擎,这是行业广泛观察的结果。在这个观察下,我们看到国际市场的巨大机会,但也发现国际市场与国内产品模式有巨大差异。我们将分析差异原因及市场选择的优劣。阿里云视频云拥抱这种差异化,愿意在市场机会下拥抱这种产品模式。
另一部分,在现有市场产品模式之上,我们希望用阿里云视频云独有的 AI 技术与媒体服务相结合的方式,进一步提升媒体服务在国际化上的产品可能性。所以将用 AI DC 的方式驱动媒体服务 2.0 的智能化进化。
最后,发布阿里云智能媒体服务在国际上的产品矩阵,希望智能媒体服务能助力全球企业进行视频化创新。
1、媒体服务成为视频业务升级引擎
我们会发现现在视频化浪潮汹涌,很多行业都在用视频化转型业务。无论是以视频内容生产、剪辑消费为关注点的视频点播场景,还是弱互动的视频直播场景、轻互动低延时直播场景,乃至强互动的实时音视频产品,都已衍生出成熟的业务板块和玩法。从视频创作到短视频,再到微短剧,在直播中也有赛事直播、大型活动直播等可能性,实时音视频场景下还有更多人机互动的新交互模式。
这些丰富场景背后,每个场景对极致效果和体验的追求不同。比如在视频内容生产、剪辑消费的点播场景下,大家更关注智能化和超高清需求;在实时互动场景下,大家更关注低延时效果。在这样的背景下,我们发现全链路媒体服务成为应用创新的基地。通常意义上,我们把全链路媒体服务分为采集、汇聚、生产制作、媒体处理、内容分发和媒体消费几个部分。随着应用的发展和迭代,各个环节都提出了更高要求,需要在应用迭代过程中进行升级迭代。比如在实时互动中,需要更低延时的内容分发,超低延时技术在媒体服务中就显得非常重要。这是一个循环,内容创新推动媒体服务技术发展,媒体服务技术进化也推动应用创新。窄带高清技术提出后已延伸到 2.0 版本,现在可以用同样的网络带宽还原更高质量的画面效果,为应用创新提供了更多可能性和更好的体验。
在国内场景下,阿里云已有丰富经验和产品积累,提供了成熟的产品和服务来支撑各种视频应用场景,包括大型体育赛事等。但在看到新机会时,发现全球化的机会在视频化浪潮中更大。深入看全球化机会时,海外市场用户习惯与国内有很大差异。媒体服务进化过程中有两个机会点:一是拥抱全球化,满足文化、使用模式和商业形态本土化的媒体服务需求;二是将沉淀在媒体服务中的 AI DC 能力应用到国际市场产品模式中,推动媒体服务的迭代创新。接下来分别聊聊这两个点的思考。
2、打造国际市场特点模块化产品
首先是打造国际市场特点的模块化产品。国际市场对媒体服务需求强烈,视频化浪潮风起云涌,有很多视频应用和媒体应用创新。但与国内不同,海外客户更倾向于原子能力组合的方式搭建媒体处理流。产品模式下有更多差异,一是产品应用场景不同。国内短视频、社交媒体和短剧流行,海外则更多集中在长视频和 OTT 服务上,应用场景不同导致客户对媒体服务的关注点不同。但我们也发现短剧在双向发展,这个点很有趣,我们接下来会在短剧方面分享一些动作。其次是协议标准不同,国际上更拥抱开放和标准的行业协议,如 HLS 等,国内则更倾向于本土化协议。此外,国内对内容安全监管严格,国际上更关注隐私保护和版权合规。
在已有媒体服务能力基础上,我们要推出新的产品形态,满足新市场客户对媒体服务的期待。原子化产品模式在客户价值体现上有很多优势。一站式解决方案接入快,提供完整介入体验,但客户对过程性处理关心较少。端到端可以给客户提供完整架构体验。
原子化方式将每个单独的功能单元拆开,具有成本和灵活性优势,客户可根据业务发展迭代按需选择,无需一次性全接入。本质国际上以开放协议标准为主,多家厂商或核心与辅助应用厂商之间联通常见,比如基于媒体内容的广告更新和内容管理能力可通过不同厂商结合。我们将推出视频云系列模块化矩阵,同时也看看媒体服务的功能特征。OTT 和长视频产品形态决定了其关注产品级高品质视频规格,如 4K、8K、HDR 等高规格视频以及转码编码和分发服务。海外地域分布广,全球内容分发覆盖是基础。
内容保护和隐私合规是视频应用开展业务的前提。商业模式与变现也有差异,国内视频应用商业模式多元,国际上 OTT 平台或媒体服务平台广泛采用广告驱动模式,广告插入和投放技术是必备的媒体服务。基于这些分析,推出阿里云视频云国际媒体服务模块化矩阵产品,包括媒体打包、媒体转码(Ali-Delia Package)、实时媒体处理和媒体传输服务四个核心矩阵产品,并兼容苹果、谷歌、微软等的协议,支持多种广告规格和效果追踪分析,让客户灵活搭建媒体处理链路和矩阵。
这是我们做的第一部分工作,拥抱国际化市场特点推出媒体服务模块化矩阵产品。
3.AIGC驱动媒体服务2.0智能化创新
在此基础上,我们希望用阿里云视频云本身的 AIGC 技术将媒体服务推上更高台阶,所以用 AI DC 驱动媒体服务 2.0 的智能化进化。将 AI 应用于媒体服务全场景,包括多模态内容理解、智能内容生产和音视频处理等,目前已有四个 AI 在媒体服务上的产品版本,分别是 AI 智能媒体、AI 智能生产制作、AI 媒体处理和 AI 实时互动。一部分是在传统媒体服务基础上提升效果和体验,一部分是用 AI 创造新的体验和互动方式。
首先是 AI 智能媒资,以往在大模型出现前,通常用小模型和人工打标的方式,未能真正理解媒体内容。有了大模型 AI 技术后,我们可以将媒体内容映射到高维向量数据,输出智能标签等结构化信息,实现对媒体非结构化内容的结构化理解。在此基础上,我们推出大模型搜索功能,支持自然语言搜索,在百万小时视频中可秒级解锁内容,使利用海量媒资成为可能。我们相信会有更多基于媒体理解的新功能和产品应用。
其次是智能生产,我们发布了一键成片产品,旨在降低视频生产成本,通过全智能方式带动智能创作创新。重点做了两件事:一是全智能提效,通过大模型智能分析、自动匹配素材关联片段、AI 音色合成和片段优选,实现视频生产剪辑全链路智能化,但是也需要人工精调;二是一站式成片,支持 AI 成片后导入可视化编辑,由人工进行精修美化,通过 AI 和人机协同提高质量和效率。我们在体育赛事集锦、营销视频等方面有丰富应用,也在探索覆盖直播点播全场景的视频翻译,推出了实时字幕翻译和视频文件翻译功能,在跨境电商直播中有很强的应用。
在视频文件翻译过程中,其中包含许多优秀文化内容在做出海,对于将这些优秀内容翻译为国际化内容我们推出了视频翻译功能。
首先是字幕翻译,能够实现一站式字幕翻译,涵盖主流语言如中文、英文、法语、西班牙语、俄语等的翻译,同时也进行小语种翻译。我们期望以此克服国际多元文化的问题。
其次是声音翻译,在剧集中由于角色众多,声音翻译的难题在于保留每个角色的音色和情绪。我们的声音翻译能力能够分离人声和背景声,区分不同角色进行人声处理、翻译并保留音色,最后合成到原视频中。这样可以保留角色的音色、情感以及实现音画同步等效果,还支持重新编辑时间和文本。
接下来谈谈媒体处理。通常,媒体处理可分为媒体增强和媒体编码。在媒体增强板块,我们运用了许多 AI 相关功能。例如,用 AI 修复技术减少细节损失,通过 AI 前处理与编码协同。在编码方面,采用感兴趣区域编码,根据人眼特性分配码率。我们在普通转码基础上推出了窄带高清 2.0,在提升画质的同时降低码率,用AI算法与传统结合推出新的媒体处理的一些能力。针对短剧场景,采用人脸 ROI 技术,关注观众关注区域分配更多码率,对易产生快效应的地方进行码率优化分配。
此外,我们还在不断探索用 AI 与传统算法结合的方式推出新的媒体处理方案。以欧洲杯视频为例,在相同码率下,画面质量效果明显不同,这体现了 AI 媒体处理的优势。
随着媒体服务能力的不断迭代,新的交互模式也在不断涌现。如今,视频在文本互动、语音互动、视频互动和数字人互动方面推出了智能机。例如,我们在云上面推出了一体化的 AI 智能西游记产品,赋予 AI 数字人形象,构建人设情感陪伴。通过简单配置和编排,可以快速搭建不同的对话场景,如面对面翻译和弹幕制作。这种基于媒体服务的交互创新具有极大的发展潜力。
4.阿里云智能媒体服务国际产品矩阵发布
我们推出了两大板块,一是矩阵化的产品服务,包括四个核心模块,客户可灵活搭建媒体处理全链路与自身业务结合。二是 AIDC 。结合国际产品特点和视频云 AI 媒体服务优势,为客户提供更好的产品和服务。同时,如何把媒体服务在云上使用是一个核心问题。阿里云视频云拥有强大的传输能力和全平台一体化客户端,可快速接入媒体服务矩阵产品。在国际市场上在使用阿里云媒体服务时我们可以使用依靠全球实时传输网和客户端快速接入整套媒体服务里的矩阵产品或者全链路产品,这是一个快速的入口也是友商自己能够更好的把媒体服务给客户提供的价值点所在。
阿里云非常重视合规问题,第一在全球通用合规资质方面非常完整,第二隐私保护认证全满贯,第三在垂直行业合规方面也有满足标准的认证。我们希望与国际和国内客户共同努力,把全球化的媒体服务应用做得更加完善。
二、AIGC驱动内容出海技术实践
1. 内容出海面临的挑战与AIGC机会
此部分内容包括内容出海面临挑战与AIGC机会,AIGC驱动内容生产处理技术变革,AIGC赋能内容安全与极致播放体验,视频云短剧出海方案发布。
(1)面临挑战
近年来短剧出海十分火热,但也面临诸多挑战。包括内容本地化、安全合规、播放体验和降本增效等方面。AIGC 带来新机会,以 AI 驱动可全面提升内容生产、处理、安全消费全链路体验和效率。
无论短期出海是将国内内容翻译后发行到各个地方,还是将海外拍摄的短剧发行到更多地方,都涉及到内容翻译。多语种翻译如何进行、准确性如何保证、成本与效率怎样,这是非常重要的一点。因为内容为王,内容本身是第一位的。第二部分是安全合规方面。在内容上,如何做到安全、保护版权,以及确保数据合规、隐私合规,以满足海外市场需求。第三点是基础播放体验。好的播放体验是短剧平台成功的必要条件。然而,在海外面临复杂的网络环境,如何做到全球覆盖的最佳播放体验,这也是非常重要的一点。第四点是各业务方关注的降本成效。降本提效包括几个方面,一是 app 从 0 到 1 开发或增加更多功能的成本;二是转码等相关成本以及播放带宽成本。
(2)新的机遇
如今,视频以 AI 机器为驱动,全面提升从内容生产、处理到安全消费的全链路体验,以及整体效率。具体来讲,在内容制作方面,我们有字幕翻译、声音翻译和面容翻译。在内容转码方面,窄带高清 2.0 针对短剧有一些优化。在内容安全方面,包括内容审核、加密以及版权保护等相关方式。最后是内容消费,即追求极致的播放体验以及实现更好的降本增效。
2.AIGC驱动内容生产处理技术变革
下面我将分成四部分进行详细分解。首先讲一下内容生产和处理方面。字幕翻译是内容本地化非常重要的一点。字幕翻译并非仅仅是把原目标语言翻译成目标语言,实际上它包括从字幕提取(可能涉及OCR相关技术),到字幕擦除(利用自适应群化相关技术分割各个镜头,对字幕区域进行检测,运用生成修复网络技术进行处理,实现无痕插图,深层纹理自然且无擦除痕迹,同时支持多语种),再借助通用大模型及更多模型实现精准翻译,最后通过智能云剪辑相关能力进行字幕合成。所以我们推出的字幕翻译能力实际上是一个完整的方案。
下面我为大家讲讲每一块的具体实现。首先是字幕擦除,我们利用自适应群化相关技术分割整个镜头,然后对其中的字幕相关区域进行检测,针对检测结果运用生成修复网络技术进行处理。最后实现了几个特点,一是无痕插图,深层纹理非常自然且无擦除痕迹;二是支持多语种。第三个特点是非常灵活,支持各种多语言框、多字幕框以及各个多字段分时间段的灵活擦除。下面请看一个视频,视频左边是原视频,右边是擦除后的效果。可以看到,处理完后字幕非常无痕,自然真实。
完成字幕擦除后,进行字幕翻译。现在支持多种源语言与目标语言之间的翻译。如今的语言模型相关大模型技术,翻译准确率和精准率大大提高。而且资源非常开放,针对出海场景,除了在国内支持通意外,在海外场景也即将支持像 GPT 以及 Google 等更多开源开放的模型以及第三方模型,以达到更好的整体翻译效果。
完成翻译后,如右边所示,可利用智能云剪辑相关能力。现在可以在上面选择任务和框进行快速翻译,翻译结果能成为云剪辑时间线的一部分,进而可以进行二次人工精准微调。从翻译到合成就是一个非常完整的方案。这就是我们推出的多语种字幕翻译完整能力。过往的翻译中,声音通常没有额外的特色,不会保留某个音色或进行配音。但我们现在的声音翻译能够保持原来角色本身的音色。具体是这样做的:首先,分离人声和背景声;其次,区分不同角色,针对不同角色进行人声的语音识别(SR)相关处理工作;接着,将其翻译到目标语种,保留相应音色,输出相关的文本转语音(TTS);最后,把这些 TTS 合成到原来视频当中。这样做完之后有以下效果:一是能够保留角色音色,做到情感保留、音画同步、保证背景以及立体声等,还能支持重新编辑时间和文本。所以,这样就能原汁原味地保留原来角色的情感等特色。右边是一个视频,以经典的《甄嬛传》视频为例,我们来听听它的声音。
在生产制作的另一方面,对于短剧来说,投流非常重要。客观来讲,现在投流已经可以决定一部短剧的好坏,是一种非常重要的商业模式。我们今天推出的一键成片相关能力,可以高效、智能地帮助生成精彩片段或集锦。具体做法是:针对投流的内容,无论是精彩片段、集锦、解说还是其他创意类型,只要输入普通的相关素材,一键成片能力就会进行以下操作。首先进行意图识别,然后对输入的prompt素材脚本进行智能化扩充,并根据意图寻找相关主题素材进行匹配。最后进行智能效果包装,以短剧为例,常用智能运镜、高光识别和最后的拼接,输出带时间线的成片。如果需要额外添加人工锚点,也可以用云剪辑能力进行按需精简调整,最后实现投流。这样整体下来,会极大地提高整个视频的制作效率和效果。下面我们来看一个用一键成片生成的短剧智能集锦视频。
讲完生产制作,现在来讲一下内容处理。内容处理最核心的是内容转码,一直追求转码后既能保持高画质又占用较低带宽。如今窄带高清技术发展到 2.0 时代,很好地实现了这两点。它利用生成网络相关技术修复更多细节,提升清晰度。有两点与短剧场景特别相关:第一,人脸 ROI,短剧注重人物对话和主人公突出,在编码时关注观众关注的区域,分配更多码率,不关注的点降低码率,使画质更好;第二,针对易产生快效应的地方,采用码率优化分配算法,在短剧场景特别有效。从效果图可以看出,普通转码和窄带高清转码有明显差异。窄带高清能提升画质,降低码率,减少卡顿,提升播放体验,还能降成本。播放量越大,降本比例越高。 窄带2.0能提升整体效果,大幅降低码率,为客户降本提效。
3.AIGC赋能内容安全与极致播放体验
第三部分讲讲赋能内容安全合规和极致播放体验。这部分是内容版权保护,出海短剧特别关注内容保护,支持主流的加密方式,如 DRM、HLS 标准加密以及阿里云私有加密等。
重点讲讲阿里云的思路。阿里云私有加密是云端一体的视频加密解决方案。相比其他加密方式,它有以下优势:加密级别高,达到流级别;播放体验好,本地直接解密,不影响起播速度;支持外部端包括 PC 外部和移动外部,兼容性强;易用性强,成本低,支持主流格式如 MP4、HLS 等。所以阿里云提供安全级别更高、不损伤播放体验且成本更低的云端一体视频加密解决方案。
第二点是关于内容审核。内容出海很大一部分审核由人工把握,但也有基审等诉求。我们提供阿里云安全相关能力有丰富强大的审核能力,包括鉴黄、涉暴恐、广告、不良场景、语音违规文本、反垃圾等。短剧方案可直接调用,优势有高性价比、高并发支持大量调用、个性化审核能力以及高准确率。
第三点是海外合规。这方面我们有超过 130 多个认证,数据安全跨境合规在出海中非常重要。我们有很多安全合规认证,重点讲讲数据合规。今天内容出海、短剧出海所依赖的服务在海外多个中心已部署,如新加坡、美西、沙特、法兰克福等。同时,如果使用我们的 SDK,海外合规也做了全新升级。其中包括能够支持多地域环境。数据的存储、分析与展示服务均在海外。另外,访问 SDK 中的域名及相关服务也在海外部署。这样能够极大提升我们在海外跨境时满足数据安全及数据合规的诉求。
短剧 APP 或平台成功的必要条件之一是极致的播放体验。播放器 SDK 运用智能化手段优化播放全面度,以打造极致播放体验,具体涵盖以下几部分:其一,智能缓存,包含本地缓存与边播边缓存。其中,通过相关算法在缓存中实现更好平衡,第二:智能预加载,本地沉浸式刷视频方式会记忆网络情况与业务特征,从而控制预加载量、依据距离远近确定预加载个数以及每个预加载的时长,这些均通过算法进行控制;高级 ABR 能力,可基于不同分辨率进行 ABR 切换,并实现不同清晰度之间的无缝切换;储备节点,若使用阿里云播放器和 CDN,能做到节点故障时更智能地逃逸以及防止节点之间出现问题,这对于海外播放质量至关重要。其三:推出 H265 智能播放方案。众人皆知,相比 H264,H265 码率更低、质量更高,但设备兼容性稍差。因此,很多业务在选择 H265 还是 H264 时会有所顾虑。我们今日推出的方案在诸多方面进行了平衡。我们拥有庞大的机型库,并通过大数据分析获取了相关机型的配置信息。在起播时,会针对视频设备及配置进行智能决策,判断是采用 H265 的硬件、软件还是 H264,并能实现无缝降级。如此一来,能够在可行的情况下大量使用 H265,若不可行则采用 H264 进行托底,保证码率下降及质量提升,同时增强兼容性,实现无缝降级,这一点至关重要。此外,设备数能够适配一万加的数量,实现全球同步且动态更新。
4.视频云-短剧出海解决方案发布
为大家发布我们当前的短剧出海解决方案。该解决方案底层依赖于我们现有的点播服务、国际化智能媒体服务以及媒体报社的播放器 SDK。在此基础上,针对短剧内容出海场景,涵盖 AIGC 视频翻译等相关能力、生产处理能力、内容安全能力、内容播放能力以及播放反馈等方面,我们有与客户需求升级相匹配的优化特色点,支持原子能力及短剧 AI 的接入,在海外部署方面支持新加坡、美西等主要中心站点。针对短剧开发过程中成本较高的问题,我们推出了短剧 AIUI Key 方案。该方案采用低代码、易接入的方式,开放代码以便灵活进行二次开发。无论是没有短剧业务想上线短剧业务,还是已有短剧业务想进行升级,都可以直接使用。在短剧切换过程中,我们进行了无缝滑动升级,以实现系统最优效果。大家可以下载体验,若处理不好可能会出现黑帧,而我们的方案则较为无缝。
最后,无论大家是短剧内容制作方还是短剧平台服务方,无论是新建平台还是提升现有平台体验,都期待通过上述介绍的方案能力与大家进行更多沟通交流。