OpenEdv-开源电子网

 找回密码
 立即注册
正点原子全套STM32/Linux/FPGA开发资料,上千讲STM32视频教程免费下载...
查看: 2343|回复: 0

乐鑫语音之文字转语音(TTS)

[复制链接]

67

主题

71

帖子

0

精华

中级会员

Rank: 3Rank: 3

积分
357
金钱
357
注册时间
2022-3-14
在线时间
53 小时
发表于 2022-5-30 16:06:24 | 显示全部楼层 |阅读模式
今天,我们来研究乐鑫的语音助手框架ESP-Skainet其中的中文语音合成的例程。


编译原例程
  • 首先需要clone例程
  1. git clone --recursive https://github.com/espressif/esp-skainet.git
复制代码
该工程内部自带一个idf,是运行的最佳版本,不过你任然可以使用自己的idf。


  • 进入例程中

  1. cd  esp-skainet/examples/chinese_tts
复制代码


  • 理论上设置好了芯片型号为esp32s3后自动调用sdkconfig.defaults.esp32s3配置文件。但是实际上好像没有,所以这里加一个步骤确保能使用上默认配置。


  1. cp sdkconfig.defaults.esp32s3 sdkconfig.defaults
复制代码


  • 设置芯片为esp32s3


  1. idf.py set-target esp32s3
复制代码


  • 进入menuconfig


  1. idf.py menuconfig
复制代码
修改Audio Media Hal -> Audio Hardware board 改成ESP32-S3-Korvo-1



  • 编译烧录程序


  1. idf.py flash monitor -p /dev/ttyUSB0
复制代码



运行原例程
运行后,可以看到如下打印
  1. 欢迎使用乐鑫语音合成
  2. I (266) tts_parser: unicode:0x6b22 -> huan1
  3. I (266) tts_parser: unicode:0x8fce -> ying2
  4. I (276) tts_parser: unicode:0x4f7f -> shi3
  5. I (276) tts_parser: unicode:0x7528 -> yong4
  6. I (286) tts_parser: unicode:0x4e50 -> le4
  7. I (286) tts_parser: unicode:0x946b -> xin1
  8. I (296) tts_parser: unicode:0x8bed -> yu3
  9. I (296) tts_parser: unicode:0x97f3 -> yin1
  10. I (306) tts_parser: unicode:0x5408 -> he2
  11. I (306) tts_parser: unicode:0x6210 -> cheng2

  12. 请输入短语:
复制代码




简化原例程并分析
原例程大致分为两个功能,第一个功能是阅读“乐鑫语音合成”这句话,还有一个功能是朗读串口输入的文字。第二部分经常会有bug,所以咱们简化例程,重心分析第一个功能。简化例程如下:
  1. #include <stdio.h>
  2. #include <stdlib.h>
  3. #include <string.h>

  4. #include "freertos/FreeRTOS.h"
  5. #include "freertos/task.h"
  6. #include "esp_system.h"
  7. #include "esp_tts.h"
  8. #include "esp_tts_voice_xiaole.h"
  9. #include "esp_board_init.h"

  10. int app_main()
  11. {

  12.     ESP_ERROR_CHECK(esp_board_init(AUDIO_HAL_16K_SAMPLES, 1, 16));     // 初始化codec芯片,配置好采样率、声道数、采样大小
  13.     esp_tts_voice_t *voice = (esp_tts_voice_t *)&esp_tts_voice_xiaole; // 配置tts的声音配置文件,来自libvoice_set_xiaole
  14.     esp_tts_handle_t *tts_handle = esp_tts_create(voice);              // 创建tts对象
  15.     char *prompt1 = "你好我是启明云端";                                // 需要转换的文字

  16.     if (esp_tts_parse_chinese(tts_handle, prompt1)) // 文字解析成拼音
  17.     {
  18.         int len[1] = {0};
  19.         do
  20.         {
  21.             short *pcm_data = esp_tts_stream_play(tts_handle, len, 3); // 拼音转换成pcm音频
  22.             esp_audio_play(pcm_data, len[0] * 2, portMAX_DELAY);       //播放音频
  23.         } while (len[0] > 0);
  24.     }
  25.     esp_tts_stream_reset(tts_handle); // 重置 tts 流并清除 TTS 实例的所有缓存

  26.     return 0;
  27. }
复制代码


这里音频的tts来自静态库libvoice_set_xiaole中,目前也只有这一个音色可供使用,其余的tts相关函数则是属于静态库libesp_tts_chinese。




总结
tts过度封装化,一定程度上注定它的使用难度不高。但是依据已跑完的例程来看,音频任然有发音声音的问题,对于现在的一些成熟的tts方案,乐鑫的这个tts还有一定的差距,这个缺点可能导致无法应用于商业化项目中。项目中如果涉及到语音转文字的内容,一方面可以通过云平台的提供的API能力发送文字收取PCM音频来解决。另一方面如果是有限的词汇,也可以用语音拼接的方式,把相应的音频存到文件系统中,通过映射播放指定的内容并拼凑成一段完整的语句。例如:“支付宝收款”、“元”、“个”、“十”、“百”、“千”、“万”这几段文字的语音就基本可以通过拼凑音频达到支付宝语音播报功能。
正点原子逻辑分析仪DL16劲爆上市
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则



关闭

原子哥极力推荐上一条 /2 下一条

正点原子公众号

QQ|手机版|OpenEdv-开源电子网 ( 粤ICP备12000418号-1 )

GMT+8, 2025-1-19 08:22

Powered by OpenEdv-开源电子网

© 2001-2030 OpenEdv-开源电子网

快速回复 返回顶部 返回列表