押注数字人,百度、科大讯飞“短兵相接”

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 公众对数字人的认知上升到了一个新的台阶。

近两年,小雀斑、柳夜熙、AYAYI等大量网红数字人的相继出现,以及虚拟数字技术在《指环王》和《阿凡达》以及《刺杀小说家》等电影中的广泛应用,还有北京冬奥会期间数字人在手语解说、节目直播等众多场合亮相,使得公众对数字人的认知上升到了一个新的台阶。

作为数字经济的重要环节,数字人为数字经济的发展注入了新的动能。于是,各个行业企业便涌现出了多个玩家,纷纷基于已有的相关技术和业务基础,开始进军数字人赛道,数字人行业也由此迎来了一波新的发展热潮。

数字人乘风而起

随着数字人在各行各业中的应用越来越广泛,国内数字人市场规模也在持续稳步增长。根据IDC在《中国AI数字人市场现状与机会分析2022》报告中预计,到2023年中国AI数字人市场规模将达102.4亿元。而数字人市场之所以将呈现高速增长的态势,则与三大利好不无关系。

从政策层面来看,国家政策的大力支持,预示着数字人的前景一片大好。近年来,国内虚拟现实相关产业备受外界关注,自2016年起,国家就发布了多项政策支持我国虚拟现实产业的发展,并将虚拟现实和增强现实与云计算、大数据、物联网、工业互联网、区块链、人工智能一起列为了数字经济重点产业。而虚拟数字人作为虚拟现实产业重要的应用之一,自然也有望享受到政策利好所带来的红利释放期。

从技术层面来看,数字技术的融合发展,驱动了数字人进入发展快车道。其实数字人出现的时间并不算晚,只是受技术应用水平的限制,早期的数字人制作周期长且成本高。而近几年,随着CG、语音合成、深度学习算法、自然语言处理等技术的进步,数字人各环节制作周期大大缩短、制作成本明显降低,数字人制作也走向了智能化。坚实的技术基础,不仅创新了数字人行业的发展应用,更是加速了数字人场景化的应用落地。

从环境层面来看,AIGC技术的逐渐成熟,助力了数字人行业规模的拓展。数字人虽然最初多应用于影视、游戏等行业,但随后应用场景将会不断拓展。只不过,越复杂的环境对数字人的信息处理能力、即时互动能力,以及表达能力等都有着更高的要求。而在AIGC的赋能下,数字人内容生产流程将有望得到创新,可助力数字人广泛与各行业领域相结合,为数字人描绘出了极大的创作及交互想象空间。

在政策、技术、环境的多轮驱动下,数字人应用场景将持续得到拓展与深化。而随着数字人行业进入高速发展期,国内也已出现了诸多相当有竞争力的玩家,这其中,以百度为代表的综合类互联网技术厂商,以及以科大讯飞代表的专长类AI厂商的表现最为突出,优势也最为明显。

百度“双轮驱动”

目前来看,数字人虽然已经应用于多个领域,但当前市场上大多的数字人产品精度依旧较低,而百度不仅上线了具备较强的视觉感知和动作控制能力,能够通过手势、语音等方式与用户进行互动的虚拟数字人,还搭建了百度智能云曦灵智能数字人平台,提供虚拟形象智能交互解决方案,而这些产品的生成,都源于百度为数字人相关开发提供了绝佳的土壤。

一方面,百度在AI技术上的领先优势,能够高效率、高质量地推动其数字人技术的迭代升级。众所周知,数字人的发展离不开计算机视觉、智能语音、自然语言处理等AI技术的支持,而作为国内唯一一家既有视觉能力,又有语音、语义相关包括计算机图形学自动生成全链路AI能力平台型的公司,百度已经积累了大量全栈AI能力,而这无疑是其数字人成功落地的实力与底气。

另一方面,百度标准化、平台化的优势,可以有效降低运营门槛,助其数字人实现广泛应用。想要实现“人均一个”数字人,产品标准化、平台化必不可少。得益于百度在视觉、NLP、语音交互等底层全栈AI技术优势的长期积累,以及PLATO百亿参数对话大模型,百度智能云已经将这一能力平台化、标准化,这不仅使其部署成本更低,周期更短,还可以做到一次部署、一次建设,并在多个场景下形成虚拟数字人能力,实现端到端软硬一体的商业应用。

百度凭借无可比拟的AI能力,加之在标准化、平台化中服务稳定、成本低廉等特点,在数字人领域先发制人,在产品力、市场上走在了行业前列。据了解,百度智能数字人平台是世界上首个在线语音交互注意力模型,实现与数字人自然畅通交流,高准确度的音画同步,逐字口型准确率>98.5%。另外,目前百度终端虚拟人产品,也已经以智能客服的形象,成功落地在了深圳、重庆、郑州等多个城市的各大地铁站,全天候为来往的乘客提供最便利的智能咨询服务。

科大讯飞“三线出击”

数字人已经成为多家厂商发力的重点,凡是进入的玩家都在机器视觉、语音交互和自然语言处理等方面有着或多或少的技术积累,而尽管国内诸多互联网大厂和科技巨头都瞄准了数字人赛道,但作为亚太地区知名的智能语音和人工智能上市企业,科大讯飞同样在推动数字人产品和场景应用落地上,建立起了自己的优势。

一是,科大讯飞所具有的丰富的技能和问答知识储备,可以让其数字人变得更加聪慧智能。一直以来,科大讯飞都在致力于让机器“能听会说,能理解会思考”,其开发的星火大模型不仅在开放式知识问答上取得了突破,其多轮对话、逻辑和数学能力也有所升级。而科大讯飞语言理解、知识问答、逻辑推理等各项能力的持续提升,能够使其数字人准确地理解用户问题,并给出自然、准确的回答,为用户带来更为丰富的使用体验。

二是,科大讯飞在智能语音技术方面的深厚积淀,可以为其数字人的落地提供全链路保障。科大讯飞自成立以来,就一直从事着智能语音、自然语言理解、计算机视觉等核心技术的研究,并且其在语音、图像、自然语言理解、机器认知推理能力、多语种多模态人机交互等方面的技术和产业化应用已具有业界领先水平。得益于此,科大讯飞的数字人也就能得到语音识别、语义理解、语音合成、形象驱动、视频渲染服务的全链路保障。

三是,科大讯飞专属的数字人定制能力,有助其在众多厂商中形成差异化优势。科大讯飞可以根据客户要求,在客户的不同业务场景下进行AI虚拟人赋能,为客户提供一站式、定制化AI虚拟人服务。比如,在服务部署上,可以灵活采用公有云或私有云的部署方案,保障交互服务的安全稳定;在形象声音上,可以根据客户音色、风格的需求灵活定制专属的个性化语音库;在虚拟人形象上,可以支持2D真人形象,从而为客户定制专有IP形象。

仍需负重前行

在数字时代,数字人已经开始在各个企业中扮演关键角色。然而对于数字人企业而言,打通产业链各环节、修炼技术“内功”,才是打造竞争优势、强化竞争壁垒的关键。因此,即便是国内数字人发展较为成熟的公司,已经在客户积累、技术实力、销售渠道、资金供给等方面具备了一定积累,但由于数字人行业天花板依旧较高,想要维持长期和衍生发展并不容易。

一方面,国内数字人尚处于起步阶段,距离商业化规模推广仍有一定距离。尽管国内诸多企业的数字人已经实现了场景化应用,但就整体而言,我国数字人行业发展仍处于起步阶段,不仅尚未跑出一个覆盖全产业链的数字人企业,大多数企业在数字人情绪感知、语义理解、情感连接等方面仍有所欠缺。另外,国内各家数字人在细分市场上的产品也都还仍处于试验可行性的阶段,大规模商业化暂时还难以实现。

另一方面,海外巨头的数字人优势明显,国内企业想要追赶还需更加努力。国内领先企业的数字人产品虽然已经颇具特色,但国内企业更侧重AI技术的开发与内容应用,因此数字人产品大多探索的是其在社交活动、新闻媒体、文旅等领域的应用。而海外巨头多聚焦于数字人的基础建设,技术优势较为明显。比如英伟达、Unity等均基于自身技术优势向下游生产技术服务平台延伸,相较于国内,其技术壁垒就更为深厚。

目前来看,国内以百度、科大讯飞为代表的科技企业在数字人上的探索虽然还有一定难度,但值得注意的是,在各个大厂的不断发力,以及人工智能技术的大力加持下,数字人的制作运营效率有望得到持续优化,其应用价值也将得到不断释放。而随着百度、科大讯飞不遗余力地加速数字人的进程,其数字人的未来也将会非常值得期待。

目录
相关文章
|
人工智能 搜索推荐 视频直播
Web3.0时代 | 数字人如何突破规模落地三大难点? 百度李士岩:两年内每个人有望实现“数字人自由”
Web3.0时代 | 数字人如何突破规模落地三大难点? 百度李士岩:两年内每个人有望实现“数字人自由”
239 0
Web3.0时代 | 数字人如何突破规模落地三大难点? 百度李士岩:两年内每个人有望实现“数字人自由”
|
7月前
|
传感器 人工智能 搜索推荐
|
26天前
|
API 语音技术 开发者
基于开源技术的数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
魔搭社区最近上线了基于开源技术的数字人实时对话demo,无需预训练即可使用自定义的数字人形象进行实时对话,支持语音输入和实时对话。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】python之人工智能应用篇--数字人生成技术
数字人生成技术是基于人工智能技术和计算机图形学技术创建的虚拟人物形象的技术。该技术能够模拟人类的外貌、声音、动作和交流能力,为多个领域带来创新的应用可能性。数字人的本质是将所有信息(数字和文字)通过数字处理(如计算机视觉、语音识别等)再进行表达的过程,形成具有人类形态和行为的数字产物。 数字人的生成涉及到多种技术,如3D重建技术,使用三维扫描仪扫描人的外观、五官等,并通过3D模型重建三维人;虚拟直播技术,使用计算机技术生成人物或实体,并且可以实时直播、录制;数字人体数据集技术,利用数据构建数字人模型以及训练虚拟现实引擎等
131 4
|
5月前
|
新零售 人工智能 vr&ar
国家发展改革委等部门:鼓励利用数字人等技术拓展电商直播场景!
国家发改委推出措施鼓励创新消费场景,特别提到利用AI、VR等技术增强购物体验,支持数字人电商。青否数字人直播系统提供独立部署方案,适应抖音直播并解决封号问题,具备实时话术改写和AI智能回复功能,确保互动合规。此系统适用于24小时直播,降低商家成本,提升效率。欲了解更多信息,可访问:zhibo175。
国家发展改革委等部门:鼓励利用数字人等技术拓展电商直播场景!
|
6月前
|
算法
VASA-1:实时音频驱动的数字人说话面部视频生成技术
【6月更文挑战第8天】VASA-1是实时音频驱动的数字人面部视频生成技术,能根据输入音频精准生成匹配的面部表情。具备实时性、高准确性和适应性,适用于虚拟主播、在线教育和影视娱乐等领域。简单示例代码展示了其工作原理。尽管面临情感理解和硬件优化等挑战,但随着技术发展,VASA-1有望在更多领域广泛应用,开启生动数字世界的新篇章。
302 5
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【数字人】AIGC技术引领数字人革命:从制作到应用到全景解析
【数字人】AIGC技术引领数字人革命:从制作到应用到全景解析
651 0
|
传感器 人工智能 达摩院
带你读《2022技术人的百宝黑皮书》——虚拟数字人行业现状和技术研究(1)
带你读《2022技术人的百宝黑皮书》——虚拟数字人行业现状和技术研究
188 0
带你读《2022技术人的百宝黑皮书》——虚拟数字人行业现状和技术研究(1)
|
编解码 自然语言处理 算法
虚拟数字人之《手语翻译官》的技术实践
虚拟数字人之《手语翻译官》的技术实践
20289 0
虚拟数字人之《手语翻译官》的技术实践
|
对象存储 流计算 CDN
带你读《2022技术人的百宝黑皮书》——虚拟数字人行业现状和技术研究(2)
带你读《2022技术人的百宝黑皮书》——虚拟数字人行业现状和技术研究
187 0

热门文章

最新文章