AiTalk创始人梁宇淇:镜像连接虚拟与现实的纽带

简介: 赋予虚拟数字人“实时沟通与互动”的能力

私享会现场.jpg

图:2022阿里云视觉计算私享会现场


5月11日,在“2022阿里云视觉计算私享会”上,AiTalk创始人梁宇淇为大家带来了题为《仿人智能交互:镜像连接虚拟与现实的纽带》的主题分享。以下内容根据他的演讲整理而成。

image001.jpg

现实生活,我们经常在机场、地铁站等公共场所见到一些实体机器人,也有很多比如小度、小冰、小爱等语音机器人。但这类机器人与人类的交互存在诸多障碍,往往沦为一种摆设。

image.gifimage003.jpg

数字人与上述各种机器人的本质是一样的,它是一种机器人的表现形式。然而数字人作为元宇宙的核心,依然缺乏实时的沟通和交流能力


目前市面上主要存在几类数字人:


  • 第一类:比如像柳夜熙、AYAYI等通过传统的CG动画制作、偏虚拟偶像类的产品。制作方法需要团队有很强的创意策划能力,但它很难超越阿凡达以及阿凡达塑造的元宇宙世界,仅适用于电影娱乐。


  • 第二类:由百度、商汤、相芯这类公司出品,基本采用统一的技术架构,采用云端渲染加推流的方式。但它的并发会受到很大限制,且很难适应终端的应用环境,比如弱网、无网或极端的嘈杂环境。此外,因为需要额外的GPU云服务器以及直播推流带宽,会额外增加很多成本。


  • 第三类:小冰、小度类型的语音交互产品。单纯从算力角度来看,AI已经远超人类。但是此类语音产品在与人进行交互时,始终无法顺畅、无障碍地与人对话。加多层神经网络、使用更优的深度学习模型,也依然无法解决语音产品与人交互时不符合人的日常习惯和逻辑的问题。

image.gifimage005.jpg


正是因为以上这几点,我们将研发重心放在了赋予数字人零障碍沟通和互动的能力上。很多客户对数字人的要求是:与人交流的时候能够做到“对答如流”


核心技术重点围绕以下几点展开:


1.STEP算法

我们自主研发了STEP算法,它的原理非常简单,任何人表达的任何意图都可以放在特定的场景下,围绕若干话题,通过特定事项来达到期望的目的,它能够解决AI与人交互时的习惯和逻辑问题。


比如问Siri哪里可以喝咖啡,他会直接推送搜索结果。但正常人交流时的逻辑应该是:A说想喝咖啡,B可能会告诉他楼下有哪几家咖啡店,有哪些种类的咖啡。因此,step算法重点就是解决逻辑问题。


2.识别干扰

与语音产品进行交互时,如果屏幕前有多个用户,则不管用户是否在与AI对话或与朋友对话,它都会将声音收录进去,并做出回应,然而这并不符合正常生活习惯。因此,需要对多人对话进行识别和干扰排除。


目前我们已经能够实现当AI面前有多人对话,他能够判断当前用户是否在与自己对话,是否需要回应。


3.对话打断

出现了听不懂的专有名词,或者对内容不感兴趣时,会打断对话。打断以后会考虑是否做恢复。


4.无唤醒词

在与市面上大部分语音智能产品交互时,一般需要喊“嘿siri”或按键以唤醒AI。而在线下4S店、银行网点、公交站等地与AI交互时,用户往往无法记住所有AI的唤醒词,因此需要做无唤醒词的处理以方便用户使用。

image007.jpg


解决了仿人交互的问题,让A.I.不再智障。我们还需要对人的形象数字化。不同于其他厂商“云端+推流”的技术架构,我们坚持采用客户端实时渲染处理,解决了延迟问题。对CPU的消耗不超过10%,而且可以兼容iOS9.0/android4.4,意味着七八年前1000元左右的安卓手机也可以运行此程序,可以不依赖网络。

image.gifimage009.jpg


采用云端分离的方式,好处在于,无论在哪里,都可以将它当成一个“人”。沟通和交互时,不管是3D全息、智能交互屏,还是未来的脑机接口或在大脑皮层植入芯片,都可以营造面对面聊天的效果。


图像的处理、与人物之间的交互都放在端上处理;而云主要用于强化沟通和互动的能力,更多地用来做思考和推理,主要是数据处理和训练:就像人们要接受培训和教育,不断充电、完善自我。

image011.jpg

AiTalk对外输出主要有三类标准化产品:


  • 第一类:仿人交互软件。它又分为两种:一种是SDK,可以针对比如手机App或智能家居产品,完全标准化,且成本很低。比如手机APP的license授权可能只需低于0.1元;另一种是针对银行网点、4S店、商超、公共场所等提供一整套软件,一般会搭载XR硬件。


  • 第二类:XR硬件。它具备多模态感知的能力,可以与它进行视觉层面、听觉层面的等多个层面的交互,而且它可以适用终端弱/无网和噪音的处理。


  • 第三类:配套的应用服务,它能够处理交互过程,AI与人交互的时候,不只是简单的聊天,而是能够帮助企业或用户完成相关的事务和流程。比如办工商注册,数字人会推送相关流程,并协助完成某些流程的办理,过程中还有VR/AR方面的应用,增强用户沉浸式的交互。

image013.jpg

与其他友商相比,AiTalk更加注重于仿人交互方面的探索,优势在于以下两个方面:


  • 1. 客户端实时渲染。我们是唯一一家采用边缘计算的公司,不存在任何并发限制,而且没有延迟,可以让三四五六七八九线的用户零成本使用相关产品。模型精度可达150万面,成本降低90%以上。


  • 2. 虚拟数字人沟通能力。沟通互动能力是数字人的灵魂,我们采用大量仿生技术,让虚拟数字人具备与人进行零障碍交流和互动的能力,不再智障。只有达到这一点,数字人/AI才能真正大规模进入商业化应用。


以上是我的全部分享,特别感谢阿里云的邀请以及长久以来合作伙伴的大力支持,谢谢大家。


点击阅读原文,查看本次视觉计算私享会的回放视频


相关阅读

虚谷未来CEO 唐佳娴:让虚拟人“灵” 动起来

英伟达周锡健:设计到数字营销的最后一公里

阿里云张新涛:异构计算为数字经济提供澎湃动力

携手数字人、数字空间、XR平台,阿里云与伙伴共同建设“新视界”

相关文章
|
人工智能 监控 数据可视化
【项目管理】AI时代项目经理必备技能
【项目管理】AI时代项目经理必备技能
|
运维 安全 Linux
宝塔面板搭建网站教程:Linux下使用宝塔一键搭建网站,内网穿透发布公网上线
宝塔面板搭建网站教程:Linux下使用宝塔一键搭建网站,内网穿透发布公网上线
596 0
|
缓存 NoSQL 中间件
【Sa-Token】6、Sa-Token集成Redis
Sa-Token 支持 Redis、Memcached 等专业的缓存中间件中, 做到重启数据不丢失,而且保证分布式环境下多节点的会话一致性
2598 0
|
Java Spring
Spring Cloud OpenFeign 远程调用传递请求头信息
import feign.RequestInterceptor; import feign.RequestTemplate; import lombok.extern.slf4j.Slf4j; import org.springframework.util.Assert; import org.springframework.web.context.request.RequestContextHolder; import org.springframework.web.context.request.ServletRequestAttributes;
539 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
391 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
前端开发
CSS transition过渡属性详解
本文介绍了CSS中`transition`属性的作用、用法及实例。`transition`用于在元素属性变化时添加平滑过渡动画,通过设置`transition-property`、`transition-duration`、`transition-timing-function`和`transition-delay`等属性值,可以精细控制过渡效果。文末提供了HTML示例代码,展示了如何使用`transition`实现鼠标悬停时背景颜色的平滑变化。
582 1
|
存储 算法 Java
Spring Boot 通用限流方案
Spring Boot 通用限流方案
1013 0
|
存储 Kubernetes 块存储
k8s教程(Volume篇)-PV详解
k8s教程(Volume篇)-PV详解
507 0
|
Java 应用服务中间件 Maven
IDEA如何导入Eclipse项目(非Maven项目)
IDEA如何导入Eclipse项目(非Maven项目)
781 0
|
存储 Linux Docker
snapshotter not loaded: overlayfs: invalid argument
snapshotter not loaded: overlayfs: invalid argument
521 0

热门文章

最新文章