应用Python+TensorFlow完成人工智能中文语音辨认

不发芽儿的豆儿 · 2019-5-31 09:04:07

传奇微课原创首发

一、源码下载地址

https://github.com/bestpower/Speech_Recognition_Test

二、开发文档

Speech_Recognition_Test

中文语音辨认

1、项目运转环境

Windows7x64

Pycharm 2018.2.4 Python 3.6.2

独立显卡 GTX1050Ti

2、项目运转所需的库文件

Numpy（用于矩阵运算）

tensorflow-gpu（GPU版本有助于加快训练速度）

scipy.io.wavfile（用于读取音频文件）

python_speech_features（用于获取音频的梅尔倒普系数）

3、项目训练所需数据

下载地址：http://www.openslr.org/18/

下载文件：data_thchs30.tgz

4、项目构建思绪

1）将样本数据读入内存（包括音频数据和标签数据）

2）建立批次获取样本的函数

3）将语音数据转换成梅尔倒频谱系数（MFCC数据）（将时域数据转换成频域数据）

4）将MFCC转换成训练格式数据工夫列和频率特征系数行的矩阵

5）文本转换成向量

6）用于读取文件操作

7）对齐该批次的音频数据

8）将文本数据转换成稀疏矩阵（也就是密集矩阵转换成稀疏矩阵）

9）字向量转换成文字

10）构建网络结构停止模型训练：BiRNN_model

11）调用cpu函数

12）读取待测试数据（包括音频数据和标签数据）

13）将数据代入已训练好的模型中

14）打印辨认信息对比辨认效果

5、项目运转方法

配置conf目录下的conf.ini中的各项，次要是配置训练和测试所需的数据文件的途径，训练模型和log文件保存途径

打开Pycharm新创建一个项目，将项目所需Python文件添加出来

运转train.py文件对模型停止训练

运转test.py文件对训练好的模型停止测实验证

6、留意事项

以上网址下载的训练数据并不残缺，只要音频文件，没有标签数据，为了方便停止训练和检测辨认效果，本人已从其他地方找到了对应的标签数据（doc.rar）

由于数据文件量较大，训练工夫会很长，以本人的家用电脑配置（AMD FX-Series FX-8300 八核 12GB内存 GTX1050Ti显卡）全部训练上去大概用了五天的工夫，假如想尽快看到训练效果，可缩减训练数据量，但训练出的模型泛化才能会较差，如想达到实践运用的效果请选择服务器级别的机器或分布式系统

艾春到死 · 2019-5-31 16:08:34

那个啥吧。。。就是这个。。。你知道我要说啥吧。。。

wolf830406 · 2019-6-1 15:34:03

给你我的小心心

tfdspf82 · 2019-6-2 13:30:20

介是神马？！！

		自动登录	找回密码
密码			立即注册

应用Python+TensorFlow完成人工智能中文语音辨认

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们