FlashLabs 正式发布 Chroma 1.0 - 全球首个开源、端到端、实时语音到语音 AI 模型 → 支持个性化语音克隆

简介: FlashLabs 发布全球首个开源、端到端、实时语音到语音 AI 模型 Chroma 1.0,支持低延迟(TTFT \x26lt; 150ms)、高保真语音克隆与强对话能力,旨在成为 OpenAI Realtime API 的开源替代方案。

今天,FlashLabs 正式发布 Chroma 1.0 ——全球首个开源的支持声音克隆、高保真、端到端、实时语音到语音(Speech-to-Speech)AI 模型,并逐步部署于 FlashAI语音智能体平台。


Chroma 是一个研究级、完全开源的实时语音模型,定位为 OpenAI Realtime API 的开放替代方案,面向全球开发者、研究者与企业用户。

🚨 Chroma 1.0 有什么不同?

与传统「ASR → LLM → TTS」多阶段管线不同,Chroma 原生支持语音到语音的端到端建模,在延迟、自然度与一致性上实现突破式提升。


核心亮点

  • 端到端首字节延迟(TTFT)< 150ms

  • 🎙️原生Speech-to-Speech架构(非拼接式流水线)
  • 🧬几秒参考音频即可完成高保真声音克隆
  • 📈SIM相似度=0.817
    • 相比人类基线(0.73)提升+10.96%
    • 在已测试的开源与闭源模型中表现领先
  • 🧠仅4B参数即具备强对话与推理能力
    • 基于Qwen2.5-Omni-3B、Llama 3、Mimi等架构优化
  • 🔓完全开源(代码+权重)

Chroma在发布当天即支持SGLang推理框架,用于高并发、低延迟实时语音场景:

  • 🧠Thinker TTFT再降≈15%
  • ⏱️端到端TTFT低至≈135ms
  • 🔊实时因子(RTF)≈0.47–0.51

🌍 面向未来的实时语音 AI 基础模型

Chroma 1.0 的发布,标志着实时语音 AI 正式进入“开源 + 端到端 + 低延迟”的新阶段
它不仅适用于 AI 呼叫中心、语音客服、销售外呼、虚拟人、实时翻译 等场景,也为研究者提供了一个可复现、可扩展的基础模型。

FlashLabs 相信:

语音将成为 AI 时代最重要的人机接口,而实时性是决定体验的关键。

Chroma 1.0 让开源社区首次拥有能够与顶级闭源产品相媲美的语音实时端到端、高保真生成能力。

🔗 了解更多


  • 演示视频(Voice Test):
    以下视频来源于
    FlashLabs


点击即可跳转模型链接~

https://modelscope.cn/models/FlashLabs/Chroma-4B

目录
相关文章
|
23天前
|
机器学习/深度学习 文字识别 测试技术
10B击败200B!阶跃星辰10B视觉语言SOTA模型开源
阶跃星辰发布开源多模态小模型Step3-VL-10B,仅10B参数却媲美百亿级大模型,在视觉感知、逻辑推理、数学竞赛等任务中达同规模SOTA,支持端侧部署,推动智能终端交互革新。
226 6
|
23天前
|
机器学习/深度学习 人工智能 JSON
大模型微调实战:从原理到落地的完整指南
本文系统讲解大模型微调的原理与实战,涵盖LoRA等高效方法,手把手教你用少量数据定制专属模型,结合数据准备、训练策略与效果评估,助力开发者低成本实现AI应用落地。
|
24天前
|
测试技术 API
小而强,GLM-4.7-Flash开源
GLM-4.7-Flash正式开源,30B总参、3B激活参数,兼顾性能与效率,支持免费调用。在编程、中文写作、翻译等多场景表现优异,已上线智谱平台,替代GLM-4.5-Flash,提供全新轻量化部署选择。
913 1
|
21天前
|
存储 人工智能 安全
推荐一款可以简单快速部署开源AI模型的桌面软件 Doo AI
Doo AI是一款简洁易用的开源AI模型本地部署工具,支持通义千问3/VL、LLaMA3.1等主流HF格式模型。下载即用,扫描→点击“加载”,可以快速、轻松完成部署;纯本地运行,隐私安全;支持文本对话、图像识别、RAG、角色提示词等实用功能。(239字)
341 4
推荐一款可以简单快速部署开源AI模型的桌面软件 Doo AI
|
5天前
|
边缘计算 人工智能 物联网
Ultralytics YOLO26来啦!5种尺寸全家桶,速度与精度兼顾
Ultralytics发布YOLO26,系列迄今最先进、易部署的模型,支持分类、检测、分割、姿态估计等多任务。五种尺寸灵活适配边缘设备,CPU推理提速43%,首创无NMS端到端推理,移除DFL提升兼容性,已上架魔搭社区。(239字)
113 13
|
26天前
|
机器学习/深度学习 存储 人工智能
国内首个全国产化千亿参数细粒度 MoE:开源!
TeleChat3-105B-A4.7-Thinking,国内首个全国产化千亿参数细粒度MoE大模型,开源!代码、数学、Agent等多能力比肩头部,支持高效任务拆解与代码生成。
166 2
国内首个全国产化千亿参数细粒度 MoE:开源!
|
1月前
|
机器学习/深度学习 测试技术 数据中心
九坤量化开源IQuest-Coder-V1,代码大模型进入“流式”训练时代
2026年首日,九坤创始团队成立的至知创新研究院开源IQuest-Coder-V1系列代码大模型,涵盖7B至40B参数,支持128K上下文与GQA架构,提供Base、Instruct、Thinking及Loop版本。采用创新Code-Flow训练范式,模拟代码演化全过程,提升复杂任务推理能力,在SWE-Bench、LiveCodeBench等基准领先。全阶段checkpoint开放,支持本地部署与微调,助力研究与应用落地。
854 2
|
22天前
|
人工智能 Kubernetes 数据可视化
别再写"面条式文档"了!用AI给你的思维装个"图形渲染引擎"
别让线性文字限制了你的高维思考。本文揭示了大脑作为"图形处理器"的本质,提供了一套专业的AI指令,将复杂的逻辑思维"序列化"为清晰的拓扑结构,像渲染DOM树一样可视化你的知识体系,极大提升沟通与学习效率。
174 12
|
22天前
|
自然语言处理 监控 物联网
大模型微调参数设置 —— 从入门到精通的调参指南
本文系统解析大模型微调核心参数:学习率、批次大小、训练轮次、权重衰减、LoRA秩等的作用机制与设置技巧,结合LLaMA-Factory实战演示,帮助初学者避开“黑箱”误区,在有限算力下实现高效、稳定微调。

热门文章

最新文章