❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 功能:支持实时语音转文本,自动检测说话的开始与结束,具备唤醒词激活功能。
- 技术:采用 WebRTCVAD 和 SileroVAD 进行语音活动检测,Faster_Whisper 实现实时转录。
- 应用:适用于语音助手、实时字幕、会议记录等场景,支持多语言转录。
正文(附运行示例)
RealtimeSTT 是什么
RealtimeSTT 是一款开源的实时语音转文本库,专为低延迟应用设计。它具备强大的语音活动检测功能,能够自动识别说话的开始与结束,并通过 WebRTCVAD 和 SileroVAD 进行精准检测。
RealtimeSTT 还支持唤醒词激活功能,借助 Porcupine 或 OpenWakeWord 检测特定唤醒词来启动系统。核心转录功能由 Faster_Whisper 实现,能够将语音实时转换为文本,适用于语音助手、实时字幕等场景。
RealtimeSTT 的主要功能
- 语音活动检测:精准识别说话时段,自动检测何时开始和停止说话,避免无效录音和转录。
- 实时转录:使用 Faster_Whisper 进行即时转录,支持 GPU 加速,满足实时交互、会议记录等场景需求。
- 语音唤醒功能:支持 Porcupine 或 OpenWakeWord 进行唤醒词检测,通过检测指定的唤醒词来激活系统。
- 灵活的音频输入方式:支持麦克风实时录音或通过
feed_audio()
方法输入预先录制的音频块。 - 多语言支持:具备多语言转录能力,能识别和转录多种语言的语音。
RealtimeSTT 的技术原理
- 初步检测:使用 WebRTCVAD 进行初步的语音活动检测,快速识别音频流中的语音段和非语音段。
- 准确验证:使用 SileroVAD 进行更准确的验证,基于深度学习模型精确区分语音与非语音时段。
- 转录模型:采用 Faster_Whisper 进行即时转录,支持 GPU 加速,确保语音内容能实时转换为文本。
- 唤醒词检测:支持 Porcupine 或 OpenWakeWord 进行唤醒词检测,识别特定唤醒词以激活系统。
如何运行 RealtimeSTT
1. 安装 RealtimeSTT
首先,通过 pip 安装 RealtimeSTT:
pip install RealtimeSTT
2. 基本使用示例
以下是一个简单的示例,展示如何使用 RealtimeSTT 进行实时语音转文本:
from RealtimeSTT import AudioToTextRecorder
def process_text(text):
print(text)
if __name__ == '__main__':
print("等待语音输入...")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
3. 使用唤醒词
你可以通过设置 wake_words
参数来使用唤醒词功能:
from RealtimeSTT import AudioToTextRecorder
if __name__ == '__main__':
recorder = AudioToTextRecorder(wake_words="jarvis")
print('说 "Jarvis" 开始录音...')
print(recorder.text())
资源
- GitHub 仓库:https://github.com/KoljaB/RealtimeSTT
- PyPI 页面:https://pypi.org/project/RealtimeSTT/
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦