语音识别与语音控制的原理介绍-阿里云开发者社区

语音识别与语音控制的原理介绍

2024-09-19 802

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 硬件平台机器硬件：OriginBot(导航版/视觉版)PC主机：Windows（>=10）/Ubuntu(>=20.04)扩展硬件：X3语音版运行案例首先进入OriginBot主控系统，运行一下指令。请注意，部分操作OriginBot内暂未放入，请根据内容进行适当处理。cd /userdata/dev_ws/# 配置TogetheROS环境source /opt/tros/setup.bash# 从tros.b的安装路径中拷贝出运行示例需要的配置文件。cp -r /opt/tros/lib/hobot_audio/config/ .# 加载音频驱动，设备启动之后只

硬件平台

机器硬件：OriginBot(导航版/视觉版)PC主机：Windows（>=10）/Ubuntu(>=20.04)扩展硬件：X3语音版

运行案例

首先进入OriginBot主控系统，运行一下指令。请注意，部分操作OriginBot内暂未放入，请根据内容进行适当处理。

cd /userdata/dev_ws/
# 配置TogetheROS环境
source /opt/tros/setup.bash
# 从tros.b的安装路径中拷贝出运行示例需要的配置文件。
cp -r /opt/tros/lib/hobot_audio/config/ .
# 加载音频驱动，设备启动之后只需要加载一次
bash config/audio.sh
#启动launch文件
ros2 launch speech speech_recongnition_launch.py

其中speech_recongnition_launch.py 文件内容如下：

from launch import LaunchDescription
from launch.actions import DeclareLaunchArgument
from launch.substitutions import LaunchConfiguration
from launch_ros.actions import Node
def generate_launch_description():
# 启动音频采集pkg
audio_get = Node(
        package='hobot_audio',
        executable='hobot_audio',
        output='screen',
        parameters=[
            {"config_path":"./config"},
            {"audio_pub_topic_name": "audio_smart"}
        ],
        arguments=['--ros-args', '--log-level', 'error']
    )
return LaunchDescription([
    audio_get
])

此时出现如下报错是因为没有语音唤醒，说出“地平线你好”后，即可唤醒

当人依次在麦克风旁边说出“地平线你好”、“向左转”、“向右转”、“向前走”、“向后退”命令词，语音算法sdk经过智能处理后输出识别结果，log显示如下

识别到语音命令词“向前走”、“向左转”、“向右转”、“向后退”，并且输出DOA的角度信息，如recv hrsc sdk doa data: 110字段表示DOA角度为110度。

语音控制

SSH连接OriginBot成功后，配置智能语音模块：

#从TogetheROS的安装路径中拷贝出运行示例需要的配置文件。
cp -r /opt/tros/lib/hobot_audio/config/ .
#加载音频驱动，设备启动之后只需要加载一次
bash config/audio.sh

启动机器人底盘在终端中输入如下指令，启动机器人底盘：

ros2 launch originbot_bringup originbot.launch.py

启动语音控制以下是口令控制功能的指令：

ros2 launch audio_control audio_control.launch.py

此时即可看到小车运动的效果了

相关实践学习

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

语音识别与语音控制的原理介绍

硬件平台

运行案例

语音控制

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

语音识别与语音控制的原理介绍

硬件平台

运行案例

语音控制

热门文章

最新文章

相关课程

相关电子书