超越感官,沉浸赛场——大型体育赛事云上实战精选-第五章 英雄联盟S10:全球首个实时字幕技术-全球首个游戏直播实时字幕技术 热力支持英雄联盟S10赛事

简介: 超越感官,沉浸赛场——大型体育赛事云上实战精选-

 

《英雄联盟》S10全球总决赛作为电竞顶流,在赛事期间聚集了无数观众在游戏直播平台。线上持续观战之时,很多观者有一项特殊发现,即游戏直播中竟出现了实时语音字幕,这让电竞主流之外的吃瓜之众也能迅速融入到大赛氛围中,感受S10的鼎沸热潮。

 

image.png

2020英雄联盟S10全球总决赛

 

准确而言,这是由阿里云视频云技术团队与达摩院语音识别和NLP团队共同研发完成,以实时语音字幕的形式展现在S10赛事中,并应用于国内某知名游戏直播平台。

 

更确切的说,针对这项游戏直播场景的实时字幕技术,阿里云视频云是第一个成功推出的先行者,据了解,即使在世界范围内,也是实时字幕技术于游戏场景成功尝试的首例。故,这也是首次应用在英雄联盟S10顶级赛事,开创了游戏直播体验的先河。

 

在S10直播中,该实时字幕技术的场景重要性在于两点:

 

第一,对一直存在的直播体验问题进行彻底改善,延伸了场景的可能性,例如针对不能直接听赛事的、或吵闹环境导致听不清楚的、或解说人的语言不标准造成理解困难、以及听力有点困难的这几类人群,他们可以通过实时字幕来辅助理解,解决歧义,从而拓展了在线观看的人群。

 

第二,实时字幕可以让视频分发更专业,提升直播平台对场景生产能力的专业性,特别是针对一些电竞的专有术语,可以让入门级的用户能理解其字,由字生义,由义明字,从而提升游戏直播的体验感,引导更多的泛电竞受众。

 

image.png

带有实时语音字幕的某平台S10直播

 

在游戏直播领域,该技术的输出核心在于,针对特定游戏场景进行特定的语音识别,并实时展示在直播流中,让分发端的观众可以借助字、音、画多维度信息理解视频内容

 

对于未来的游戏直播行业,它开创了游戏赛事直播的新玩法尝试,让直播实时语音识别的技术帮助大型赛事游戏更好的分发,对整个行业具有更多维的延展性价值。

 

在该项目的技术方案实践中,最核心的研发环节与攻克难点在于两方面:

 

语音识别的准确率

字、音、画三者实时且同步,然后合成展示。

 

在这两方面,视频云与达摩院整体协同并分别攻克。达摩院主要解决语音识别的准确率,通过特定游戏场景来训练模型,提高准确率;阿里云视频云提供全链路解决方案,进行客户直播流的接入、直播流的语音分离、调用达摩院的语音识别获取字幕、然后字音画同步、合成展示,最后分发。

 

image.png


对于实时字幕技术,起初,视频云实现的是实时插入字幕的功能,后来才逐步实现语音实时字幕,其与实时插入字幕有一个本质区别,即,实时语音字幕是一个字幕流,同时有一定的时效性,需要实时、字音画同步,且展示的时长机制不一样。

 

早在游戏直播场景的研发之前,阿里云视频云就曾成功研发全球速卖通(AliExpress)海外电商直播实时字幕项目,AliExpress作为“国际版淘宝”的跨境电商平台,其使用的是导播台做实时语音字幕和实时翻译,进行多国多语种字幕展示,也是视频云与达摩院共同打造的世界上第一个多语言电商直播实时翻译系统

 

在该AliExpress项目上,视频云团队已经积累了对导播台实时语音字幕的各种功能与稳定性的把控力。“所以这次S10赛事支持,我们仅需要后端更新游戏场景的语音识别模型即可,不需要额外投入开发。仅和平台用户对接,让用户的流接入我们导播台,开通实时语音字幕即可,然后输出给用户。”阿里云视频云该项目的技术负责人表示。

 

精确地说,当前,S10赛事的实时字幕技术,运用了阿里云视频云导播台成熟的实时语音字幕方案来提供该功能,S10支持结束后,后续更多的游戏直播场景均可以更广泛地复用这套语音字幕的直播方案,包括优酷、B站、抖音、快手这样的视频平台。

 

未来在大型电竞赛事直播上,实时字幕技术、实时语音技术领域,还有新的技术空间思考

 

需要进一步提升语音识别的准确率;

在应用情景上还可做实时翻译,确保多国分发;

实现更低的延时,目前是RTMP延迟3-5s,实际上可以做到更优质的RTS延迟1-2s,从而极大提升在线体验。

 

相较游戏直播、电商直播、或其他直播场景的实时语音字幕,在技术逻辑的本质上是一致的,均是字幕的同步、合成和展示,但是,不同场景,语音识别的模型完全不同,比如电商有电商的专业术语,游戏有游戏的专业术语,同时还有一些领域俚语,所以,需要进行特定的语音识别模型训练以完成。

 

未来,对实时字幕(支持实时语音字幕的直播)技术的研发,进一步的技术升级规划方向是:

 

一方面,让用户的接入更灵活,字幕模型配置以及字幕的样式展示更方便

 

另一方面,支持更多的特定场景,提高特定场景的语音识别率,以此复用到更多具化场景的玩法尝试中。

 

也许,通过实时字幕技术,更多的圈外人能轻松get英雄联盟赛事解说人准确无误的描述,从而一起融入热血的电竞文化。而对更多场景、更多维度的技术探索,才能够真正推动新内容与新交互的未来。

 

 

发布时间:2020年10月23日

作者:IMMENSE

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
关系型数据库 MySQL 数据安全/隐私保护
MySQL8.0.26 出现错误#1045
MySQL8.0.26 出现错误#1045
692 0
MySQL8.0.26 出现错误#1045
HH
|
物联网
阿里云物联网平台基于MQTT.fx完成OTA升级
物联网平台提供OTA升级与管理服务。下面介绍OTA升级消息的Topic和Alink数据格式,包括设备上报OTA模块版本、物联网平台推送升级包信息、设备上报升级进度和设备请求获取最新升级包信息。
HH
4475 0
阿里云物联网平台基于MQTT.fx完成OTA升级
|
10月前
|
机器学习/深度学习 人工智能 编解码
FlashVideo:生成1080p视频仅需102秒,字节联合港大推出低成本高分辨率视频生成框架
FlashVideo 是字节跳动和香港大学联合推出的高分辨率视频生成框架,通过两阶段方法显著降低计算成本,快速生成高质量视频。
405 5
FlashVideo:生成1080p视频仅需102秒,字节联合港大推出低成本高分辨率视频生成框架
体育赛事直播系统怎么开发(足球篮球电竞)
一、通过购买现成源码(如“熊猫比分”)并进行二次开发,是一种快速启动体育直播项目的方式,适合需求变动不大、预算有限的情况。但需注意,大规模改动可能增加工作量和潜在错误。 二、全新定制开发体育直播系统,虽成本高、周期长(约2周),但能完全根据客户需求设计,提供更高的灵活性和定制化程度。开发前需详细规划功能与界面布局,确保最终产品符合预期。
体育赛事直播系统怎么开发(足球篮球电竞)
|
11月前
|
人工智能 编解码 算法
全球顶级赛事实践:视频云制播在奥运赛事的关键技术与创新
本次分享主题为“全球顶级赛事实践:视频云制播在奥运等体育赛事的关键技术与创新”。内容涵盖视频云制播的整体技术框架、AI技术重构体育赛事全链路、视频云制播+AI的技术创新与应用、未来展望,以及央视频在奥运等赛事中的成功实践。通过阿里云和央视频的合作,展示了多语种解说、多视角同步、智能媒资管理等技术创新,提升了观众的观赛体验,并推动了体育赛事转播的智能化发展。
483 0
|
API Python
​不用SMTP实现联系表单提交后发送邮件到指定邮箱
构建网站时,联系表单可通过邮件API(如SendGrid、Mailgun、Amazon SES)或第三方自动化服务(Zapier、Integromat)无需SMTP发送邮件。使用API服务,如SendGrid的Python示例,可直接集成到表单提交流程。第三方自动化服务允许表单提交触发邮件发送。后端脚本,如PHPMailer,也可用于邮件发送。这些方法简化了邮件发送并提高了效率。AokSend提供触发式接口和独立IP的高触达发信服务。
|
Dubbo Java 测试技术
技术汇总:第十章:Maven Profile动态选择配置文件
技术汇总:第十章:Maven Profile动态选择配置文件
775 0
|
C语言
【C语言】柔性数组(可变长数组)
【C语言】柔性数组(可变长数组)
|
人工智能 Cloud Native 调度
创新场景|智能亚运,国际大型赛事的云上新体验
本届杭州亚运会除了转播平台全面上云以外,亚运会的核心系统也是首次100%“跑”在了云上。不必像往届亚运会需要搭建和拆卸机房,云计算彻底替代传统数据中心(IDC),成为亚运会算力基础设施,从底层支持赛事系统群,向上支撑云上转播、亚运钉等智能应用,实现核心系统和应用服务的云上打通,为亚运各类智能应用提供云底座支持。
525 0
|
传感器 数据采集 算法