最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

zengli88 · 2022-8-22 08:13:56

夏乙发自麦蒿寺量子位出品 | 公众号 QbitAI

第一个全卷积语音识别工具包wav2letter++开源了。
出品方Facebook称之为现有“最快的、顶尖水平的”语音识别系统。
抛开广告法不谈，我们来全面了解一下wav2letter++，看看Facebook哪来的勇气口出狂言。
wav2letter++由Facebook AI研究院（FAIR）的语音团队推出，以C++写成，使用了ArrayFire张量库和flashlight机器学习库。
Facebook还说，它是第一个完全由C++写成的语音识别系统，也是第一个全卷积语音识别系统。
所谓“全卷积”，指的是wav2letter++在从声波到文本的处理过程中，所有可学习的部件都是由卷积层构成的，声音建模、语言建模任务全部由CNN完成。

一般来说，在声音和语言建模任务上，循环网络架构才是更常用的。不过，CNN构成的wav2letter++在性能上也不输那些RNN模型。
Facebook团队在论文中，将他们的wav2letter++和其他主流开源语音识别系统做了比较。
他们说，某些情况下，wav2letter++训练语音识别端到端神经网络速度是其他框架2倍还多，而且用1亿个参数的模型测试，使用从1到64个GPU，训练时间是线性变化的。

其实，wav2letter++还有个不带加号的前身，叫做wav2letter，用Lua语言写成。现在，新版占用了原版的GitHub仓库地址，而原来的wav2letter被放到了wav2letter-lua分支下。
想要复现wav2letter++也不难。因为它使用的机器学习库flashlight也同时开源了。这个机器学习库用现代的C++即时编译，CPU、GPU都可用，以求效率和规模的最大化。
最后，附上传送门~
GitHub地址：
https://github.com/facebookresearch/wav2letter
论文：

wav2letter++: The Fastest Open-source Speech Recognition System
Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert
https://arxiv.org/pdf/1812.07625.pdf

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态

kulelala · 2022-8-22 08:14:36

谷歌出品，必是精品！

韓僅____atw · 2022-8-22 08:15:12

开源了，很快国产就说自主研发！

独年荒岛112 · 2022-8-22 08:16:11

2个问题，可以实时识别吗？支持中文吗？

张美嘉o7a · 2022-8-22 08:16:34

同样的技术或许可以用到ocr领域

恒励法援 · 2022-8-22 08:17:02

支持中文吗，汉语吗

nHNqGUtj · 2022-8-22 08:17:17

讯飞怎么办？

阳光正法 · 2022-8-22 08:17:41

缺点和优点都是用C++写的。

I莱芜U · 2022-8-22 08:17:59

对于我这种带有浓重四川阿坝自治州地方口音的川汉子来说，别说语音识别，就是俺父母有时都不知道我说的是啥[捂脸]

xiaojiaying20 · 2022-8-22 08:18:35

词错率5%很高了啊，现在商用的都在3%以内。还得继续优化

		自动登录	找回密码
密码			立即注册

最强CNN语音识别算法开源了：词错率5%，训练超快，Facebook出品

本帖子中包含更多资源

大神点评18

最近发表

公社版块

关注我们