备案控制台

开发者社区 ModelScope模型即服务语音文章正文

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

2025-01-21 12

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 百聆是一款开源的AI语音对话助手，结合ASR、VAD、LLM和TTS技术，提供低延迟、高质量的语音对话体验，适用于边缘设备和低资源环境。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

技术核心：百聆结合语音识别（ASR）、语音活动检测（VAD）、大语言模型（LLM）和语音合成（TTS）技术，实现高效语音对话。
功能亮点：支持语音输入、智能对话生成、语音输出、打断功能、记忆功能、工具调用和任务管理。
应用场景：适用于智能家居控制、个人助理服务、汽车智能交互、教育辅助工具和办公辅助应用。

正文（附运行示例）

百聆是什么

bailing

百聆（Bailing）是一款开源的语音对话助手，基于语音识别（ASR）、语音活动检测（VAD）、大语言模型（LLM）和语音合成（TTS）技术，能够与用户进行自然的语音对话。百聆的端到端时延低至800ms，无需GPU即可运行，适用于各种边缘设备和低资源环境。

bailing - flowchart

百聆通过模块化设计，支持记忆功能、工具调用和任务管理，提供高质量的语音对话体验。其核心目标是在低资源环境下实现类GPT-4o的对话效果，适用于智能家居、个人助理、车载系统等多种场景。

百聆的主要功能

语音输入与识别：准确地将用户的语音输入转换为文本，为后续的对话处理提供基础。
语音活动检测：过滤掉无效的音频片段，只处理有效的语音部分，提高识别效率和准确性。
智能对话生成：基于大语言模型（LLM），生成自然、流畅且富有逻辑的文本回复。
语音输出与合成：将生成的文本回复转换为自然、逼真的语音，播放给用户。
支持打断：识别用户的关键字和语音打断行为，及时响应用户的即时反馈和控制指令。
记忆功能：记忆用户的偏好和历史对话，提供个性化的互动体验。
工具调用：支持集成外部工具，用户可通过语音指令直接请求信息或执行操作。
任务管理：高效管理用户任务，包括跟踪任务进度、设置提醒及提供动态更新。

百聆的技术原理

语音识别（ASR）：基于FunASR技术，将语音信号转换为文本数据，涉及语音信号的采集、预处理、特征提取及模式匹配。
语音活动检测（VAD）：基于silero-vad技术，实时监测和分析语音信号，判断是否包含有效的语音活动。
大语言模型（LLM）：使用deepseek作为核心模型，处理ASR输出的文本，生成自然、流畅的回复。
语音合成（TTS）：通过edge-tts等技术，将LLM生成的文本回复转换为语音信号，模拟人类的语音发音特点。

如何运行百聆

1. 克隆项目仓库

git clone https://github.com/wwbin2017/bailing.git
cd bailing

2. 安装依赖

pip install -r requirements.txt

3. 配置环境变量

打开 config/config.yaml 文件，配置ASR、LLM等相关参数。
下载 SenseVoiceSmall 模型到 models/SenseVoiceSmall 目录。
获取 deepseek 的 api_key 并配置到项目中。

4. 启动服务

cd server
python server.py  # 启动后端服务

5. 运行主程序

python main.py

启动后，系统会等待语音输入，通过FunASR将语音转为文本，silero-vad进行语音活动检测，deepseek生成回复，最后通过edge-tts将文本转换为语音输出。

资源

GitHub 仓库：https://github.com/wwbin2017/bailing

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

文章标签：

语音技术

人工智能

API

智能硬件

自然语言处理

蚝油菜花

目录

相关文章

云安全专家

|

15天前

|

供应链监控安全

对话｜企业如何构建更完善的容器供应链安全防护体系

阿里云与企业共筑容器供应链安全

云安全专家

171335 12 14

弹性计算-百晓生

|

18天前

|

供应链监控安全

对话｜企业如何构建更完善的容器供应链安全防护体系

随着云计算和DevOps的兴起，容器技术和自动化在软件开发中扮演着愈发重要的角色，但也带来了新的安全挑战。阿里云针对这些挑战，组织了一场关于云上安全的深度访谈，邀请了内部专家穆寰、匡大虎和黄竹刚，深入探讨了容器安全与软件供应链安全的关系，分析了当前的安全隐患及应对策略，并介绍了阿里云提供的安全解决方案，包括容器镜像服务ACR、容器服务ACK、网格服务ASM等，旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念，阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。

弹性计算-百晓生

150296 32 32

弹性计算-百晓生

|

26天前

|

弹性计算人工智能安全

对话 | ECS如何构筑企业上云的第一道安全防线

随着中小企业加速上云，数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目，汇聚产品技术专家，探讨云上安全问题及应对策略。首期节目聚焦ECS安全性，提出三道防线：数据安全、网络安全和身份认证与权限管理，确保用户在云端的数据主权和业务稳定。此外，阿里云还推出了“ECS 99套餐”，以高性价比提供全面的安全保障，帮助中小企业安全上云。

弹性计算-百晓生

201962 14 16

对话 | ECS如何构筑企业上云的第一道安全防线

周周的奇妙编程

|

4天前

|

机器学习/深度学习自然语言处理 PyTorch

深入剖析Transformer架构中的多头注意力机制

多头注意力机制（Multi-Head Attention）是Transformer模型中的核心组件，通过并行运行多个独立的注意力机制，捕捉输入序列中不同子空间的语义关联。每个“头”独立处理Query、Key和Value矩阵，经过缩放点积注意力运算后，所有头的输出被拼接并通过线性层融合，最终生成更全面的表示。多头注意力不仅增强了模型对复杂依赖关系的理解，还在自然语言处理任务如机器翻译和阅读理解中表现出色。通过多头自注意力机制，模型在同一序列内部进行多角度的注意力计算，进一步提升了表达能力和泛化性能。

周周的奇妙编程

751 46 48

云安全专家

|

8天前

|

存储人工智能安全

对话｜无影如何助力企业构建办公安全防护体系

阿里云无影助力企业构建办公安全防护体系

云安全专家

1253 10 12

周周的奇妙编程

|

10天前

|

机器学习/深度学习自然语言处理搜索推荐

自注意力机制全解析：从原理到计算细节，一文尽览！

自注意力机制（Self-Attention）最早可追溯至20世纪70年代的神经网络研究，但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性，捕捉复杂依赖关系，并支持并行化训练，显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU，自注意力机制在自然语言处理（NLP）、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询（Q）、键（K）和值（V）向量，计算缩放点积注意力得分，应用Softmax归一化，以及加权求和生成输出。自注意力机制提高了模型的表达能力，带来了更精准的服务。

周周的奇妙编程

1139 41 41

通义灵码

|

8天前

|

人工智能自然语言处理程序员

通义灵码2.0全新升级，AI程序员全面开放使用

通义灵码2.0来了，成为全球首个同时上线JetBrains和VSCode的AI 程序员产品！立即下载更新最新插件使用。

通义灵码

1347 24 26

乘风直上

|

8天前

|

消息中间件人工智能运维

1月更文特别场——寻找用云高手，分享云&AI实践

我们寻找你，用云高手，欢迎分享你的真知灼见！

乘风直上

660 26 26

1月更文特别场——寻找用云高手，分享云&AI实践

魔搭ModelScope社区小助手

|

8天前

|

机器学习/深度学习人工智能自然语言处理

通义千问Qwen征文活动获奖公布

Qwen征文获奖公布啦！

魔搭ModelScope社区小助手

364 3 3

大模型服务小助手

|

14天前

|

人工智能自然语言处理 API

阿里云百炼xWaytoAGI共学课DAY1 - 必须了解的企业级AI应用开发知识点

本课程旨在介绍阿里云百炼大模型平台的核心功能和应用场景，帮助开发者和技术小白快速上手，体验AI的强大能力，并探索企业级AI应用开发的可能性。

大模型服务小助手

700 31 32

ModelScope模型即服务

语音

热门文章

最新文章

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

三行代码实现实时语音转文本，支持自动断句和语音唤醒，用 RealtimeSTT 轻松创建高效语音 AI 助手

Weebo：支持多语言和实时语音交流的开源 AI 聊天机器人，回复具备语调、情感的语音

Voice-Pro：开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

KAN-TTS 在 conda 环境下无法安装 ttsfrd

ChatTTSPlus：开源文本转语音工具，支持语音克隆，是 ChatTTS 的扩展版本

kws_util 下载不了

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

Kokoro-TTS：超轻量级文本转语音模型，支持生成多种语言和多种语音风格

Weebo：支持多语言和实时语音交流的开源 AI 聊天机器人，回复具备语调、情感的语音

三行代码实现实时语音转文本，支持自动断句和语音唤醒，用 RealtimeSTT 轻松创建高效语音 AI 助手

TangoFlux：高速生成高质量音频，仅用3.7秒生成长达30秒的音频，支持文本到音频转换

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

Freestyler：微软联合西工大和香港大学推出说唱音乐生成模型，支持控制生成的音色、风格和节奏等

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

ChatTTSPlus：开源文本转语音工具，支持语音克隆，是 ChatTTS 的扩展版本

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云开通OSS存储服务详细流程