语音技术的搜索结果_第18页-阿里云开发者社区

modelscope

|

8月前

|

博文

|

来自： ModelScope模型即服务

面向对话语音合成的模态间与模态内上下文交互建模

# 前端开发 # 语音技术

小华同学ai

|

8月前

|

博文

6.5K star！AI视频翻译配音神器，一键生成多平台适配内容，专业级本地化方案来袭！

KrillinAI 是一款基于 AI 大模型的视频翻译与配音工具，支持 12 种输入语言和 101 种输出语种，提供专业级翻译质量。其核心功能包括跨语言智能转换、全流程自动化处理及多项黑科技如语音克隆、术语替换等。技术架构涵盖 WhisperKit、OpenAI API 和 FFmpeg 等组件，实现从视频输入到多平台输出的一站式服务。项目已开源，详情见 GitHub 地址：https://github.com/krillinai/KrillinAI。

# 人工智能 # API # 语音技术 # 混合部署 # 容器

小华同学ai

|

8月前

|

博文

13.5K Star！支持5国语言+全栈语音生成，这个开源AI语音项目绝了！

CosyVoice是由FunAudioLLM团队开发的多语言大语音生成模型，支持中文、英语、日语、韩语和粤语等5种语言。该项目提供从推理、训练到部署的全栈能力，具备零样本语音克隆、跨语言合成、指令控制等前沿功能。其技术架构包括底层模型、多语言支持、框架支持及部方案等，性能优越，RTF<0.2，GPU内存<4GB，QPS>20。相比同类项目，CosyVoice在语言支持、特色功能和部署难度上表现出色，支持本地部署保障数据隐私，并大幅降低商业方案成本。适用于自媒体创作、在线教育、游戏开发、智能硬件和影视制作等多种场景。

# 人工智能 # 自然语言处理 # 搜索推荐 # 语音技术 # 异构计算

Deephub

|

8月前

|

博文

|

来自：大数据与机器学习

GenPRM：思维链+代码验证，通过生成式推理的过程奖励让大模型推理准确率显著提升

本文提出GenPRM，一种生成式过程奖励模型，通过显式Chain-of-Thought推理与代码验证提升大型语言模型性能。针对传统PRMs的局限，GenPRM结合相对进展估计和监督微调，优化推理评估精度。实验表明，GenPRM在ProcessBench及数学任务中显著优于现有方法，且可通过测试时扩展进一步增强性能。然而，该方法在计算开销和跨领域应用上仍存在局限性。

# 测试技术 # 语音技术 # 索引

阿里云云原生

|

8月前

|

博文

|

来自：云效DevOps

“思考更长时间”而非“模型更大”是提升模型在复杂软件工程任务中表现的有效途径 | 学术研究系列

本研究成功展示了通过统一的测试时计算（TTS）扩展框架，可以显著增强个人可部署的开源 SWE Agent 的代码推理和问题解决能力。我们证明了“思考更长时间”（增加推理计算）而非“模型更大”（增加参数）是提升模型在复杂软件工程任务中表现的有效途径。这项工作为在资源受限环境下（如私有部署）使用和发展高性能 SWE Agent 开辟了新的可能性。

# AES专家服务 # 机器学习/深度学习 # 运维 # 测试技术 # 语音技术 # 开发者

小华同学ai

|

8月前

|

博文

2.7K star！这个汉字工具库让中文处理变得超简单，开发者必备！

是一个功能全面的汉字工具库，提供拼音转换、笔画动画、偏旁查询、成语接龙、语音合成等20+种实用功能。支持Web/Node.js/小程序多端运行，仅需简单API调用即可实现复杂中文处理，是教育类应用、输入法开发、游戏设计的瑞士军刀

# 前端开发 # JavaScript # API # 语音技术 # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

别让创意卡在工具链！MiniMax MCP Server：MiniMax 开源 MCP 服务打通多模态生成能力，视频语音图像一键全搞定

MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件，支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力，兼容主流客户端实现跨平台调用，采用检索增强生成技术保障内容准确性。

# 图像识别 # 人工智能 # 中间件 # API # 语音技术 # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

开源学习神器把2小时网课压成5分钟脑图！BiliNote：一键转录哔哩哔哩视频，生成结构化学习文档

本文介绍基于FastAPI与React构建的开源视频笔记工具BiliNote，其整合多模态AI技术实现视频内容结构化解析，支持跨平台视频源处理与本地化部署方案，提供从语音转写到智能摘要的全流程自动化能力。

# 图像识别 # 人工智能 # 前端开发 # 语音技术 # Docker # 容器

sysin

|

8月前

|

博文

Cisco NX-OS Software Release 9.3(15) - 数据中心网络操作系统

# Devops # API # 语音技术 # 数据中心 # 数据安全/隐私保护

大风2016

|

8月前

|

问答

|

来自：阿里云百炼

paraformer问题

# 大模型服务平台百炼 # 人工智能平台 PAI # Python # 语音技术

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

语音技术