智能语音交互的搜索结果_热门_第4页-阿里云开发者社区

gswnlrt2j7wj6

|

博文

自然语言处理（NLP）技术的详细介绍

# 自然语言处理 # 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 自然语言处理 # 搜索推荐 # 知识图谱 # 计算机视觉

TsingtaoAI

|

博文

一套基本的具身智能技术流程是如何实现的

Embodied Intelligence作为一种将感知、决策与执行相结合的前沿技术，正在引领机器人技术迈向新的高度。具身智能不仅要求机器人具备理解和处理复杂环境的能力，还需赋予其自主决策和执行任务的能力。本文将深入探讨如何将LLM和多模态大模型与机器人技术相结合，构建一套完整的具身智能技术流程。本文参考了同济子豪兄的部分工作，TsingtaoAI团队对整体构建做了一部分拓展和延伸。

# 云消息队列 Kafka 版 # 云解析DNS # 云数据库 MongoDB 版 # 自然语言处理 # 智能语音交互 # 可观测监控 Prometheus 版 # 传感器 # 消息中间件 # 人工智能 # 机器人 # 数据处理

蚝油菜花

|

12月前

|

博文

|

来自： ModelScope模型即服务

MarkItDown：微软开源的多格式转Markdown工具，支持将PDF、Word、图像和音频等文件转换为Markdown格式

MarkItDown 是微软开源的多功能文档转换工具，支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式，具备 OCR 文字识别、语音转文字和元数据提取等功能。

# 图像识别 # 智能语音交互 # 人工智能 # 文字识别 # 数据挖掘 # API # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

Dolphin是清华大学与海天瑞声联合研发的语音识别大模型，支持40种东方语言和22种中文方言，采用CTC-Attention混合架构，词错率显著低于同类模型。

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 语音技术 # Python

蚝油菜花

|

12月前

|

博文

|

来自： ModelScope模型即服务

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版，通过有限标量量化技术和块感知因果流匹配模型，显著提升了发音准确性、音色一致性和音质，支持多语言和流式推理，适合实时语音合成场景。

# 智能语音交互 # 人工智能 # 自然语言处理 # 人机交互 # 语音技术

喜欢猪猪

|

博文

Spring Boot 接入大模型实战：通义千问赋能智能应用快速构建

【10月更文挑战第23天】在人工智能（AI）技术飞速发展的今天，大模型如通义千问（阿里云推出的生成式对话引擎）等已成为推动智能应用创新的重要力量。然而，对于许多开发者而言，如何高效、便捷地接入这些大模型并构建出功能丰富的智能应用仍是一个挑战。

# 自然语言处理 # 智能语音交互 # 智能语音交互 # 自然语言处理 # Java # API # 语音技术 # Spring

34789737

|

4月前

|

博文

免费版的配音软件，支持童声男声女声不同声音选项，语音转文字软件推荐支持多种声音

# 智能语音交互 # 智能语音交互 # 人工智能 # API # 语音技术

aliyun0876679345

|

博文

人工智能入门基础概念—教你正确打开人工智能世界的大门

人工智能(Artificial Intelligence)，是一个以计算机科学（Computer Science）为基础，由计算机、心理学、哲学等多学科交叉融合的交叉学科、新兴学科，研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学，企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等

# 机器翻译 # 自然语言处理 # 文字识别 # 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 存储 # 人工智能 # 自然语言处理 # 算法 # 搜索推荐 # 数据挖掘 # 语音技术 # 知识图谱 # 计算机视觉

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

百聆是一款开源的AI语音对话助手，结合ASR、VAD、LLM和TTS技术，提供低延迟、高质量的语音对话体验，适用于边缘设备和低资源环境。

# 智能语音交互 # 人工智能 # 自然语言处理 # API # 语音技术 # 智能硬件

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

小红书开源的工业级自动语音识别模型，支持普通话、中文方言和英语，采用 Encoder-Adapter-LLM 和 AED 架构，实现 SOTA 性能。

# 智能语音交互 # 智能语音交互 # 人工智能 # 物联网 # 测试技术 # 语音技术 # Python

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

智能语音交互