门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
语音识别
›
应用Python+TensorFlow完成人工智能中文语音辨认 ...
返回列表
应用Python+TensorFlow完成人工智能中文语音辨认
[复制链接]
不发芽儿的豆儿
2019-5-31 09:04:07
显示全部楼层
|
阅读模式
传奇微课原创首发
一、源码下载地址
https://github.com/bestpower/Speech_Recognition_Test
二、开发文档
Speech_Recognition_Test
中文语音辨认
1、项目运转环境
Windows7x64
Pycharm 2018.2.4 Python 3.6.2
独立显卡 GTX1050Ti
2、项目运转所需的库文件
Numpy(用于矩阵运算)
tensorflow-gpu(GPU版本有助于加快训练速度)
scipy.io.wavfile(用于读取音频文件)
python_speech_features(用于获取音频的梅尔倒普系数)
3、项目训练所需数据
下载地址:http://www.openslr.org/18/
下载文件:data_thchs30.tgz
4、项目构建思绪
1)将样本数据读入内存(包括音频数据和标签数据)
2)建立批次获取样本的函数
3)将语音数据转换成梅尔倒频谱系数(MFCC数据)(将时域数据转换成频域数据)
4)将MFCC转换成训练格式数据工夫列和频率特征系数行的矩阵
5)文本转换成向量
6)用于读取文件操作
7)对齐该批次的音频数据
8)将文本数据转换成稀疏矩阵(也就是密集矩阵转换成稀疏矩阵)
9)字向量转换成文字
10)构建网络结构停止模型训练:BiRNN_model
11)调用cpu函数
12)读取待测试数据(包括音频数据和标签数据)
13)将数据代入已训练好的模型中
14)打印辨认信息对比辨认效果
5、项目运转方法
配置conf目录下的conf.ini中的各项,次要是配置训练和测试所需的数据文件的途径,训练模型和log文件保存途径
打开Pycharm新创建一个项目,将项目所需Python文件添加出来
运转train.py文件对模型停止训练
运转test.py文件对训练好的模型停止测实验证
6、留意事项
以上网址下载的训练数据并不残缺,只要音频文件,没有标签数据,为了方便停止训练和检测辨认效果,本人已从其他地方找到了对应的标签数据(doc.rar)
由于数据文件量较大,训练工夫会很长,以本人的家用电脑配置(AMD FX-Series FX-8300 八核 12GB内存 GTX1050Ti显卡)全部训练上去大概用了五天的工夫,假如想尽快看到训练效果,可缩减训练数据量,但训练出的模型泛化才能会较差,如想达到实践运用的效果请选择服务器级别的机器或分布式系统
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
3
艾春到死
2019-5-31 16:08:34
显示全部楼层
那个啥吧。。。就是这个。。。你知道我要说啥吧。。。
回复
使用道具
举报
wolf830406
2019-6-1 15:34:03
显示全部楼层
给你我的小心心
回复
使用道具
举报
tfdspf82
2019-6-2 13:30:20
来自手机
显示全部楼层
介是神马?!!
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
不发芽儿的豆儿
高级会员
0
关注
0
粉丝
101
帖子
Ta的主页
发布
加好友
最近发表
国产化率首超50%,工业机器人进出口形势逆转
黄仁勋:人形机器人制造成本或比预期要低,花钱买车不如买机器人
那个震撼无数网友的人形机器人Atlas,退役了
外媒:马斯克透露,“擎天柱”机器人仍在试验阶段,最早明年年底
机器人!
终于知道为什么机器人无法取代人类了,看完网友分享,笑到肚子疼
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们