智能虚拟助理市场洞察
智能虚拟助理 (IVA, Intelligent Virtual Assistants) 也称为智能个人助理 (IPA, Intelligent Personal Assistants) ,是由人工智能驱动的代理,能从客户元数据、先前对话、知识库、地理位置、以及其他模块化数据库和插件等环境中提取信息,并生成个性化响应。据 Mordor Intelligence 称,智能虚拟助理市场将在 2020 年代快速增长,预计 2026 年将达到 62.7 亿美元。
人工智能助理技术在很多方面类似于传统的聊天机器人,但集成了下一代分析、机器学习、AR/VR 和数据科学。虽然传统的聊天机器人可以基于马尔可夫链和其他类似过程处理响应请求,但其静态响应能力无法与智能虚拟助理的动态洞察力相比。
苹果的 Siri 是最著名的虚拟助理之一,它是一款面向消费者的个人助理产品。其他的智能虚拟助理还有亚马逊的 Alexa、微软的 Cortana 和谷歌的 Google Assistant。像Siri 这样的虚拟助理通过语音提示帮助客户轻松执行命令,自动执行在智能手机上设闹钟、使用文本转语音技术朗读电子邮件、播放和搜索音乐以及发送短信等任务。智能虚拟助理在智能手机中得到广泛普及,使得汽车制造商也广泛采纳。
就智能虚拟助理而言,亚太地区是一个值得关注的重要市场,其在医疗保健、技术和金融领域都有着显著增长。该行业的重量级企业包括苹果、Inbenta Technologies、IBM、Avaamo 和 Sonos 公司。
使用智能虚拟助理技术的用户遍布医疗保健、电信、旅游和酒店、零售和 BFSI 领域。消费产品包括智能扬声器、智能手机、汽车、商用车、家用电脑、家庭自动化电器等等。
IVA 和 IPA 所依赖的基础技术包括机器学习、认知计算、文本朗读、语音识别、计算机视觉和 AR。后文将详述这点。
为什么公司要创建 AI 助理?
如果你是苹果用户,你可能无法想象没有 Siri 的生活。亚马逊 Alexa、谷歌助理、三星 Bixby——大多数大品牌都在投资开发AI助理。那么企业为什么要这样做呢?
使用人工智能创建此类解决方案的主要优势在于,人工智能可以高效、快速地处理大量数据、发表见解并提供智能建议。在语音采集和语音识别的支持下,AI助理将执行多种日常任务变得容易,例如在日历中添加事件、设置提醒或跟踪每月支出。据Statista数据,到 2024 年,全球使用的数字语音助理将超过 80 亿个,大致相当于世界人口规模。
为业务构建虚拟助理的主要好处有:
改进客户支持服务 ,减少对人工客服的呼叫和服务请求数量。借助 AI 助理,你可以实现与客户交互的业务流程自动化。这将使你的员工能够专注于更复杂的任务,而不是将时间浪费在可以自动处理的请求上。
关键数据收集的便利性。通过传统的客服电话或聊天收集的客户体验数据,要求分析师通过海量电话对照客服专员收集和记录的信息进行清理。使用智能虚拟助理,客户的请求和相关信息可以立即归档、分类以供分析,而无需依赖客服专员的详细记录。
个性化的用户体验。AI助理可以根据每个用户的需求提供高质量的个性化服务。例如,智能个人助理可以记住用户的姓名和偏好。这有助于提高用户参与度,并提高客户满意度和忠诚度。
公司将客户支持和公司工具链的复杂部分(如乐高积木一般)集成的能力是智能虚拟助理的主要优势。通过二次开发,虚拟助理可以连接任何数据库或任何资源,以提供关键信息并优化各个级别的工作流程。
AI虚拟助理的类型
AI虚拟助理包括:聊天机器人、语音助手、AI 化身和特定领域的虚拟助理。
聊天机器人自创建以来一直是电子商务领域的支柱,但现代聊天机器人是由人工智能提供支持,这使得它们能够思考客户问询,而不是通过一系列静态事件来满足客户需求。
语音助手使用语音识别和自然语言处理响应语音请求,例如著名的 Siri 和 Google助理。
AI 化身是模仿人类的3D模型,用于娱乐应用程序,或为虚拟客户支持交互提供人性化的触感。来自英伟达等公司的尖端技术能够实时生成几乎逼真的人类形象。
特定领域的虚拟助理是专为特定行业设计的高度专业化的人工智能虚拟助理实现,比如针对旅游、金融、工程、网络安全和其他具有严苛要求的行业的高性能需求进行了优化。
此外,我们还可以找到为特定任务创建的虚拟助理技术。例如,基于人工智能和3D建模的ATP(Avatar to Person)技术可以让残障人士执行“虚拟人脸重建”、“语音生成模拟”等任务,实现在线自由交流。
AI助理背后的技术
假设你想创建就像Siri这样的个人虚拟助理,你会怎么做呢?最容易的一个选择是将 Siri 直接集成到你的应用程序中。除了Siri,Cortana 和 Google助理也被开发人员广泛集成使用。2016 年,苹果发布了 SiriSDK。通过这个开发工具包,程序员可以将自己应用程序的功能集成为 Siri 可以执行的任务。SiriSDK 使用Intent 作为用户意图的标签,并将意图与自定义类和属性相关联。
如果你的公司不想依赖现有的 AI 助理选项,你需要一个由 AI 工程师组成的专家团队来构建你自己的解决方案。下面让我们深入了解智能虚拟助理背后的关键人工智能技术。
语音转文本和文本转语音
如果我们谈论智能虚拟助理,它们至少需要语音转文本 (STT,SPEECH-TO-TEXT) 和文本转语音 (TTS,TEXT-TO-SPEECH) 功能。
语音转文本 (STT) 的基本原理是将人类语音转换为数字信号。当你说话时,空气中会产生一系列的振动。该软件使用模数转换器 (ACD) 将它们转换为数字信号并提取声音,然后对它们进行分段并将它们与现有音素相匹配。音素是语言中能够区分不同单词的声音的最小单位。基于复杂的数学模型,系统将这些音素与单个单词或短语进行比较,并创建你所说内容的文本。
文字转语音 (TTS) 则相反,该技术将文本转换为语音输出。TTS 是使用机器学习将文本转换为人类语音的计算机模拟技术。该系统经过三个步骤,首先需要将文本转换为单词,然后进行语音转写,然后将转写转换为语音。
语音转文本 (STT) 和文本转语音 (TTS) 用于虚拟助理技术的作用是确保用户和应用程序之间的顺畅高效沟通。要将使用静态命令的基本语音助理转变为可用的 AI 助理,你还需要让程序能够通过智能标记和启发式方法来解释用户请求。
计算机视觉
计算机视觉 (CV,Computer vision) 是一种人工智能技术,可以从数字图像或视频等视觉输入中提取有意义的信息。计算机视觉是创建可视化虚拟助理不可或缺的一部分。这些助理不仅仅可以响应声音,也可以响应开发者生成的视频,从而极大地增强了用户体验。
CV使系统能够识别对交流非常重要的肢体语言。视觉虚拟助理通过摄像头采集数据,并利用实时面部检测来捕捉有人看向屏幕的时段,驱动系统的其它部分工作,将用户的语音转换为文本。
CV 还可以通过将用户所说的内容与用户面部和嘴巴的运动进行比较,从而大大提高语音识别的准确性。
噪音控制
噪音控制是关乎语音助理准确性的另一个关键功能。虽然许多智能手机都包含基于软件的噪音控制和抑制功能,但你不能指望所有客户都适用。为了弥补车载噪音抑制软件的不足,顶级蓝牙耳机还包括硬件噪音抑制功能,但这也不能保证你的 AI 助理能够准确检测到客户在吵闹的列车上到底在说什么。通过集成的噪音控制包,你可以最大限度地降低误解语音查询的风险。
语音压缩
你的 AI 助理需要临时存储语音信息以进行处理,除非你打算让语音数据填满客户的本地硬盘。因此语音压缩很关键,但开发人员要小心谨慎。因为音频文件可能被压缩得很小,导致保真度低,从而难以或无法恢复处理过程中所说的内容。压缩技术在飞速发展,语音助理的音频编解码器和压缩解决方案也需要继续深入研究。
自然语言处理
AI 助理需要处理和解释获得的语音数据,然后执行请求的命令,而自然语言处理(NLP ,Natural Language Processing) 则简化了语音识别过程。尽管许多 AI 工具包都在无数小时的语音样本上进行了预训练,但你仍然需要足够的客户数据来调整用例的精度。如果你的 AI 助理想做到口头响应,你将需要诸如 Google Cloud 等顶级语音合成解决方案,它可以产生逼真而清晰的声音。
但是,语音处理不足以得出一个人的实际意图并维持正常的对话。要将该请求正确解释就需要自然语言理解发挥作用。
自然语言理解
自然语言理解 (NLU,Natural Language Understanding) 是自然语言处理的一种不同方法,被大多数计算机和数据科学家认为是 NLP 的一个分支。虽然 NLP 方法将自然语言解析、标记和标准化为用于命令处理的标准化结构,但 NLU 解释自然语言而不对其进行标准化,并通过识别上下文从查询中获取含义。简而言之,NLP 处理语法、结构并补偿用户的拼写错误,而 NLU 检查请求背后的实际意图。
自然语言生成
自然语言生成 (NLG,Natural Language Generation) 产生自然语言输出。有了这项技术,用户可以从虚拟助理和聊天机器人那里收到类似人类的响应。用于 NLG 的模型和技术取决于项目的目标和开发方法,最简单的一种方法是模板。模板具有预定义结构,且只需要填充少量数据。填充数据可以是电子表格中的某行数据,也可以是数据库中的某条记录等等。
另一种方法是动态 NLG,它不需要开发人员为每种特殊情况编写代码,系统能够自行做出反应。这是一种更高级的依赖机器学习算法的方法。
深度学习
基于文本响应的聊天机器人比语音助理简单得多。因为你不必解释语音转换的文本,所以在构建聊天机器人时也不需要那么多工具。下一代文本生成技术(例如 GPT-3)不仅能够生成对基本请求的响应,还能够从“种子”生成整个新闻故事。 深度学习使之成为现实。
由深度学习算法驱动的虚拟助理和聊天机器人,可以从自有数据和人们的对话中学习,检查客户和支持人员之间的交互过程,创建匹配的消息和响应,并修改用户的拼写错误和语法错误。
增强现实
增强现实 (AR, Augmented reality) 允许你在现实世界中叠加 3D 对象以获得身临其境的体验。基于 AR 的移动聊天机器人和 AR 化身是使用这项技术的绝佳示例。例如,Arcade 为东伦敦的 Ragged School 博物馆创建了一个名为 Miss Perkins 的移动 AR 化身聊天机器人。该助理为博物馆参观者提供指南,同时提供小测验以增进交互式用户体验。
另一个智能移动 AR 聊天机器人的例子是维也纳科技博物馆的,其功能包括导览和回答用户关于文本、图像、视频和音频格式的特定项目的问题。
元宇宙和 VR 技术的兴起自然也引向了虚拟助理:3D AI 化身。结合人工智能,AR虚拟助理突破了现有AR工具的限制,变得更加实用。例如,深度学习允许智能虚拟助理实时捕获用户行为,驱动神经网络自主训练,提高虚拟助理的性能。
生成对抗网络
作为使用神经网络的算法架构, 生成对抗网络(GAN,Generative Adversarial Networks)创建了合成数据的新方法。GAN 由输入识别器的真实图像样本和生成器组成,为 AI 化身和 3D 助理生成逼真的 3D 面部。
GAN技术已被用于许多视频游戏和产品,以创建逼真的人物形象。GAN 还可用于将静止图像转换为全深度 3D 图像。迄今为止,最先进的 AI 化身集成工具可能是英伟达的 Omniverse Avatar项目Maxine,它实现了面对面说话的逼真的实时效果。
情绪智能
当谈到AI 化身或 3D 虚拟助理时,重要的不是声音,而是肢体语言和人类情感。智能个人助理借助 AI支持的情绪智能 (EI,Emotional Intelligence) ,可在交流时实时跟踪用户的非语言行为并做出相应反应。借助 Emotion AI 跟踪面部表情、肢体语言或语音来监控人类情绪,这将使响应速度更快。
Emotion AI 的核心是计算机视觉和机器学习算法。它使用标准网络摄像头或智能手机摄像头拍摄面部,使用计算机视觉算法识别人脸的主要特征点并跟踪他们的动作以解释情绪。接下来,系统通过将收集的数据与模板图像库进行比较,根据面部表情的组合来确定人的感受。Affectiva 或 Kairos 等解决方案可以衡量以下情绪指标:快乐、悲伤、愤怒、蔑视、厌恶、恐惧和惊讶。
我们还可以从语音中识别情感。一些软件不仅能分析人们所说的内容,还能分析人们是怎么说的。软件提取有助于识别音调、音量、节奏变化的副语言特征,将其解释为人类情感。
虚拟AI助理技术的挑战和未来
虚拟助理技术的应用无疑也会遇到一些挑战。未来人工智能辅助技术的一个主要问题是数据存储和使用的法律。不受限制地使用客户数据开展人工智能训练很容易受到世界各国数据安全法律变化挑战。在人尽皆知的举报人丑闻事件发生后,Meta(前 Facebook)等公司有争议的数据处理政策引发了人们对公司过度扩张和隐私问题的担忧。
因此,在开发人工智能助理应用程序时,要考虑到隐私和数据保护的要求,例如欧盟颁布的《通用数据保护条例》(GDPR) 。你需要确保你的应用完全合规。
此外还有来自安全部门的安全保护问题。端到端加密、双重认证和生物识别等安全机制是保护 AI 助理应用程序的一些最佳手段。此外,经验丰富的 AI 工程师团队可以帮助你开发机器学习算法驱动的定制安全系统。
尽管存在挑战,但AI助理技术的未来看起来一片光明。技术的进步也在推动更智能的虚拟助理的发展。随着 NLP 流程的不断发展,虚拟助理将能够执行更复杂的任务。特别是智能虚拟助理将能够基于自学习算法提出主动建议,这对用户更有帮助。
元宇宙的发展也与人工智能虚拟助理密切相关。AI 化身是在 3D 世界中展现用户身份的最佳方式,AI将使我们的形象更逼真。基于对身体运动的研究,该模型可以学习并根据你的耳机和控制器的位置准确预测肩膀和肘部的位置。
译者介绍
张业贵,51CTO社区编辑,从事企业信息化建设多年,致力于信息集成、数据治理和人工智能应用等,主要关注服务标准化、软件过程改进,助力企业进行效率提升和价值创新。
原文标题:How Machine Generated Virtual Assistants can 10x Your Productivity in 2022,作者:Evgeniy Krasnokutsky
--
本文转载自51CTO,本文一切观点和机器智能技术圈子无关。原文链接
免费体验百种AI能力以及试用热门离线SDK:【点此跳转】