重磅发布的「AI视频通话」如何10分钟就实现？

2025-02-07 40

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 2024年，OpenAI发布GPT-4o，支持文本、音频和图像的组合输入与输出，使交互更接近自然交流。传统语音助手需经历多阶段处理，容易出现延迟或误解，体验感差。本文介绍如何在阿里云上快速创建可视频通话的AI智能体，实现拟人化交互、精准感知、情绪捕捉等功能，提供高质量、低延时的音视频通话体验。通过简单的部署流程，用户可以轻松创建并体验这一先进的人机交互技术。点击“阅读原文”参与活动赢取惊喜礼物。

一、引言

2024年， OpenAI 正式发布了 GPT-4o，发布会上称，该模型的强大之处在于可以接受任何文本、音频和图像的组合作为输入，并直接生成上述这几种媒介输出。这也意味着人机交互将更接近人与人的自然交流。

我们在与传统的语音助手交互时，往往要经历至少三个阶段。

举个🌰：当我们说“XX，帮我设定一个上午10点的闹钟”。首先语音助手要进行语音识别，然后分析并执行指令，通过LLM 计划下一步要说什么，最后再将内容进行语音合成。每一个行动步骤都有可能出现较大延迟，甚至可能会理解错误，此时作为与机器交互的我们会体验感骤降。

那什么才是更接近人与人的自然交流？我们考虑视频通话的情况：1.视听同步：可以同时接收图像与音频信息2.听说同步：也就是当对方打断时，可以立刻停止；在对方发言的过程中，也会适时表示认可3.逻辑思维：预测对方讲话结束发生的时间，并很快接上4.迅速响应5.......

这些问题都是此前的 AI 语言助手无法很好处理的，而针对上面的问题，抽象出技术要点就是：

1.拟人化交互支持全双工实时音视频交互、智能语义识别与断句，并提供多种语言、音色和风格的语音合成及声音克隆。

2.精准感知根据摄像头捕捉的画面内容，系统能够实时分析情境并提供与当前场景紧密相关的反馈，提升互动的质量和效率。

3.情绪捕捉通过面部表情分析，AI 智能体能够解读用户的情绪状态，做出更加贴近用户期望的反应。

4.灵活编排控制台白屏化 AI 组件 ( ASR/TTS/数字人/LLM...) 灵活编排，快速构建一个企业专属云上 AI 智能体。

5.高质量通话依托实时音视频 ARTC 全球 3200+ 节点和 QoS 策略，实现高质量、低延时通话。但是！！这一OpenAI春季发布会的重磅杀手锏，在阿里云上人人可实现，人人可体验！本文将介绍的就是如何快速创造出可视频通话的AI 智能体。以及期待每一个部署的你与它碰撞出新的火花。点击文末“阅读原文”，参与活动可得惊喜礼物～

二、操作教程

整体架构

部署流程总体可以分为以下三个步骤：

1、创建实时音视频通信应用

2、创建AI智能体

3、实际应用的部署

其中，AI 智能体是本方案的核心组件之一，能够在云端模拟高度拟真的用户交互。用户可以根据需求自行创建智能体。通过灵活的插件式和拖拽式方式，用户可以编排各个 AI 组件，如语音转文字、多模态大模型、语音合成等，从而实现 AI 智能体的实时工作流。实时音视频通信技术（ARTC）为用户与AI智能体之间的音频通话提供了高可用、高品质、超低延时的保障。

与智能体交互的过程，可以参看下面的流程图：