智能语音交互的搜索结果_文章_第4页-阿里云开发者社区

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

VideoCaptioner：北大推出视频字幕处理神器，AI自动生成+断句+翻译，1小时工作量5分钟搞定

VideoCaptioner 是一款基于大语言模型的智能视频字幕处理工具，支持语音识别、字幕断句、优化、翻译全流程处理，并提供多种字幕样式和格式导出。

# 图像识别 # 智能语音交互 # 人工智能 # API # 语音技术 # iOS开发 # MacOS

技术员阿伟

|

10月前

|

博文

《探秘Downpour SGD算法：原理与多元应用场景解析》

Downpour SGD是随机梯度下降（SGD）的一种变体，采用参数服务器架构，通过数据并行机制将大规模数据集分割到多个工作节点进行并行计算。它使用异步梯度更新策略，减少通信开销，提高训练效率，并结合自适应学习率调整机制，确保模型稳定收敛。该算法在图像识别、语音识别、自然语言处理和推荐系统等领域表现出色，显著加速模型训练，提升性能和准确性。

# 云解析DNS # 智能语音交互 # 机器学习/深度学习 # 自然语言处理 # 并行计算 # 算法 # 语音技术

技术员阿伟

|

10月前

|

博文

《攻克LSTM语音识别“语速关”：技术新突破与解决方案》

在语音识别中，LSTM虽具强大序列建模能力，但对不同语速的适应性仍面临挑战。为此，可从数据增强（如语速扰动、多语速语料库）、模型改进（引入注意力机制、双向LSTM、增加深度宽度）、训练策略（分层训练、多任务学习、调整参数）及后处理（语速归一化、语言模型融合）等方面入手，全面提升LSTM对不同语速的适应性和识别性能。

# 智能语音交互 # 智能语音交互 # 机器学习/深度学习 # 自然语言处理 # 语音技术

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Hibiki：实时语音翻译模型打破语言交流障碍！支持将语音实时翻译成其他语言的语音或文本

Hibiki 是由 Kyutai Labs 开发的实时语音翻译模型，能够将一种语言的语音实时翻译成另一种语言的语音或文本，支持高保真度和低延迟。

# 智能语音交互 # 人工智能 # Rust # PyTorch # 语音技术 # 算法框架/工具

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

小红书开源的工业级自动语音识别模型，支持普通话、中文方言和英语，采用 Encoder-Adapter-LLM 和 AED 架构，实现 SOTA 性能。

# 智能语音交互 # 智能语音交互 # 人工智能 # 物联网 # 测试技术 # 语音技术 # Python

TsingtaoAI

|

10月前

|

博文

基于DeepSeek的具身智能高校实训解决方案——从DeepSeek+机器人到通用具身智能

本实训方案围绕「多模态输入 -> 感知与理解 -> 行动执行 -> 反馈学习」的闭环过程展开。通过多模态数据的融合（包括听觉、视觉、触觉等），并结合DeepSeek模型和深度学习算法，方案实现了对自然语言指令的理解、物体识别和抓取、路径规划以及任务执行的完整流程。

# 云解析DNS # 自然语言处理 # 智能语音交互 # 性能测试 # 资源编排 # 人工智能 # 自然语言处理 # 算法 # 机器人 # 计算机视觉

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型，具备拟人口语化表达、低延迟响应和多情感控制等功能。

# 智能语音交互 # 智能语音交互 # 人工智能 # 编解码 # 语音技术

TsingtaoAI

|

11月前

|

博文

具身智能与大模型融合创新技术实训研讨会成功举办

2025年1月16日-19日武汉，TsingtaoAI联合北京博创鑫鑫教育科技，举行“具身智能与大模型融合创新技术”实训研讨会，本次会议面向高校AI教师和企业AI工程师群体，通过3天的技术研修和实操教学，通过将 AI 大模型与具备3D视觉的机器人相结合，为学员实践演示，带领学员深入理解通用具身智能的原理和应用。

# GPU云服务器 # 自然语言处理 # 智能语音交互 # 云原生大数据计算服务 MaxCompute # 机器学习/深度学习 # 人工智能 # 算法 # 机器人 # 计算机视觉

阿里云开发者

|

11月前

|

博文

过年啦，做一个春节贺卡生成器

本文介绍了如何获取和利用现有的大模型资源，结合魔笔低代码，低成本、高效率地打造一个 AI 春节贺卡生成器。

# 函数计算 # 云数据库 RDS MySQL 版 # 智能语音交互 # 人工智能 # 前端开发 # 关系型数据库 # API # 语音技术

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

百聆是一款开源的AI语音对话助手，结合ASR、VAD、LLM和TTS技术，提供低延迟、高质量的语音对话体验，适用于边缘设备和低资源环境。

# 智能语音交互 # 人工智能 # 自然语言处理 # API # 语音技术 # 智能硬件

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

智能语音交互