音频编解码-speex库的使用方法

简介:

Speex是近年来开发出的一套功能强大的语音引擎,能够实现高质量和低比特率的编码。它不仅提供了基于码激励线性预测(CELP)算法的编/解码模块, 而且在其最新发布的版本中还提供了声音预处理和声学回声消除模块,为保障IP网络中的语音通信质量提供了技术手段。此外,Speex还具有压缩后的比特率 低(2~44 kbps)的特点,并支持多种比特率。这些特点使得Speex特别适合VoIP的系统。

虽然是开源的,但是使用的人还不是很多,网上的资料也很少,下面简单给大家介绍一下如何使用speex的API。

 

一:编码流程
使用Speex的API函数对音频数据进行压缩编码要经过如下步骤:
1、定义一个SpeexBits类型变量bits和一个Speex编码器状态变量enc_state。
2、调用speex_bits_init(&bits)初始化bits。
3、调用speex_encoder_init(&speex_nb_mode)来初始化enc_state。其中speex_nb_mode是SpeexMode类型的变量,表示的是窄带模式。还有speex_wb_mode表示宽带模式、speex_uwb_mode表示超宽带模式。
4、调用函数int speex_encoder_ ctl(void *state, int request, void *ptr)来设定编码器的参数,其中参数state表示编码器的状态;参数request表示要定义的参数类型,如SPEEX_ GET_ FRAME_SIZE表示设置帧大小,SPEEX_ SET_QUALITY表示量化大小,这决定了编码的质量;参数ptr表示要设定的值。
可通过speex_encoder_ctl(enc_state, SPEEX_GET_FRAME_SIZE, &frame_size) 和speex_encoder_ctl(enc_state, SPEEX_SET_QUALITY, &quality)来设定编码器的参数。
5、初始化完毕后,对每一帧声音作如下处理:调用函数speex_bits_reset(&bits)再次设定SpeexBits,然后调用函数speex_encode(enc_state, input_frame, &bits),参数bits中保存编码后的数据流。
6、编码结束后,调用函数speex_bits_destroy (&bits),    speex_encoder_destroy (enc_state)来
二:解码流程
同样,对已经编码过的音频数据进行解码要经过以下步骤:
1、     定义一个SpeexBits类型变量bits和一个Speex编码状态变量enc_state。
2、   调用speex_bits_init(&bits)初始化bits。
3、   调用speex_decoder_init (&speex_nb_mode)来初始化enc_state。
4、    调用函数speex_decoder_ctl (void *state, int request, void *ptr)来设定编码器的参数。
5、   调用函数 speex_decode(void *state, SpeexBits *bits, float *out)对参数bits中的音频数据进行解编码,参数out中保存解码后的数据流。
6、   调用函数speex_bits_destroy(&bits), speex_ decoder_ destroy (void *state)来关闭和销毁SpeexBits和解码器。
 
下面是一段实例代码:
 
  1. #include <speex.h> 
  2. #include <stdio.h> 
  3. /*帧的大小在这个例程中是一个固定的值,但它并不是必须这样*/ 
  4. #define FRAME_SIZE 160 
  5.   
  6. int main(int argc, char **argv) 
  7. char *inFile; 
  8. FILE *fin; 
  9. short in[FRAME_SIZE]; 
  10. float input[FRAME_SIZE]; 
  11. char cbits[200]; 
  12. int nbBytes; 
  13. /*保存编码的状态*/ 
  14. void *state; 
  15. /*保存字节因此他们可以被speex常规读写*/ 
  16. SpeexBits bits; 
  17. int i, tmp; 
  18. //新建一个新的编码状态在窄宽(narrowband)模式下 
  19. state = speex_encoder_init(&speex_nb_mode); 
  20. //设置质量为8(15kbps) 
  21. tmp=8; 
  22. speex_encoder_ctl(state, SPEEX_SET_QUALITY, &tmp); 
  23. inFile = argv[1]; 
  24.   
  25. fin = fopen(inFile, "r"); 
  26. //初始化结构使他们保存数据 
  27. speex_bits_init(&bits); 
  28. while (1) 
  29. //读入一帧16bits的声音 
  30. fread(in, sizeof(short), FRAME_SIZE, fin); 
  31. if (feof(fin)) 
  32. break
  33. //把16bits的值转化为float,以便speex库可以在上面工作 
  34. for (i=0;i<FRAME_SIZE;i++) 
  35. input[i]=in[i]; 
  36.  
  37. //清空这个结构体里所有的字节,以便我们可以编码一个新的帧 
  38. speex_bits_reset(&bits); 
  39. //对帧进行编码 
  40. speex_encode(state, input, &bits); 
  41. //把bits拷贝到一个利用写出的char型数组 
  42. nbBytes = speex_bits_write(&bits, cbits, 200); 
  43. //首先写出帧的大小,这是sampledec文件需要的一个值,但是你的应用程序中可能不一样 
  44. fwrite(&nbBytes, sizeof(int), 1, stdout); 
  45. //写出压缩后的数组 
  46. fwrite(cbits, 1, nbBytes, stdout); 
  47.   
  48. //释放编码器状态量 
  49. speex_encoder_destroy(state); 
  50. //释放bit_packing结构 
  51. speex_bits_destroy(&bits); 
  52. fclose(fin); 
  53. return 0; 
目录
相关文章
|
缓存 移动开发 网络协议
WebSocket 协议原理抓包分析
WebSocket 协议原理抓包分析
1110 0
|
人工智能 自然语言处理 人机交互
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,通过有限标量量化技术和块感知因果流匹配模型,显著提升了发音准确性、音色一致性和音质,支持多语言和流式推理,适合实时语音合成场景。
7943 22
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
|
JSON API 数据格式
使用Python 获取天气数据
使用Python 获取天气数据
553 2
|
编解码 人工智能 语音技术
GPT-SoVits:刚上线两天就获得了1.4k star的开源声音克隆项目!效果炸裂的跨语言音色克隆模型!
GPT-SoVits:刚上线两天就获得了1.4k star的开源声音克隆项目!效果炸裂的跨语言音色克隆模型!
1683 3
|
Java 应用服务中间件 Maven
springboot整合websocket后启动报错:javax.websocket.server.ServerContainer not available
springboot整合websocket后启动报错:javax.websocket.server.ServerContainer not available
5509 1
|
安全 Linux C语言
【FreeRTOS】系统移植:资料下载(二)
【FreeRTOS】系统移植:资料下载
370 0
|
缓存 监控 JavaScript
vue 代码优化的18条 建议
Vue项目代码优化涉及多个层面,包括但不限于以下几点: 1. 路由懒加载 路由按需加载:通过动态导入(import())来分割代码块,使得每个路由对应的组件在用户实际访问到对应路由时才加载,而非一次性全部加载。这显著减小了首次加载的体积,提高了首屏加载速度。
|
消息中间件 运维 监控
RocketMq-dashboard:topic 5min trend 原理和源码分析(一)
RocketMq-dashboard:topic 5min trend 原理和源码分析(一)
930 0
|
C语言 C++
【维生素C语言】第十五章 - 柔性数组(可变长数组)
本篇将对C99标准中引入的新特性——柔性数组,进行讲解。并探讨柔性数组的优势,简单的介绍内存池的相关概念,来体会柔性数组的优点。
640 0
【维生素C语言】第十五章 - 柔性数组(可变长数组)
|
机器学习/深度学习 存储 编解码
Opus从入门到精通(八)Opus编码基础之压缩编码
莫尔斯码就是大家熟悉的电报码,它的发明为人类做出了巨大的贡献.该码采用"."和"-"来表示26个英文字母,这实质上还是二进制码(点为"0",而杠为"1"),但是它没有采用固定字长的编码方式,而是采用了常用字母用短码表示(如E用"."表示,T用"-"表示),不常用字母用长码表示(如Z用"--.."表示,j用"-..-"表示)的变长编码方式.通过对英文单词进行大量统计,找出各字母的概率,最后确定有12个字母出现概率最低,用4bit数字表示,有8个字母出现概率较低,用3bit数字表示;有4个字母出现概率较高,用2bit数字表示;有两个字母出现概率最高,用1bit表示,共26个字母.
916 0