门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助中心
公社首页
中国人工智能社区
公社版块
广播
Follow
升级会员
动态
Space
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
文章
帖子
公社群组
用户
好友
收藏
道具
勋章
任务
淘帖
动态
日志
相册
分享
记录
留言板
广播
群组
门户
导读
排行榜
设置
我的收藏
退出
首页
›
智能技术
›
语音识别
›
十大开源语音识别项目
返回列表
十大开源语音识别项目
[复制链接]
默0默
2024-1-14 14:18:16
显示全部楼层
|
阅读模式
Automatic Speech Recognition(ASR)是一项自动语音识别技术,其目标是通过计算机自动将人类口头语音转录为文本。这项技术在多个领域有着广泛的应用,包括但不限于语音助手、语音搜索、自动转写以及语音命令识别。
本文将为您介绍十个相关的开源项目(以github上星标数排名),其中大多数都支持中文。这些项目不仅在语音技术领域具有重要意义,而且为语音识别应用的发展提供了有力的支持。
Whisper
Whisper 是一个通用的语音识别模型。它在大量多样化的音频数据集上进行训练,作为一个多任务模型,可以执行多语言语音识别、语音翻译和口语识别。
支持语言:中文、法语、德语、意大利语、日语、韩语、西班牙语等等。
项目地址:https://github.com/openai/whisper
论文地址:https://arxiv.org/abs/2212.04356
中文介绍:https://zhuanlan.zhihu.com/p/634462613
star:48.6k
Massively Multilingual Speech
Massively Multilingual Speech(MMS,大规模多语种语音)是 Meta 开源的一款全新的 AI 语言模型,可以识别 4000 多种口头语言并生成 1100 多种语音(文本到语音),可谓是“语音巴别塔”。
支持语言:1000+。
论文地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/
项目链接:https://github.com/facebookresearch/fairseq/blob/main/examples/mms/README.md
参考信息:https://ai.meta.com/blog/multilingual-model-speech-recognition/
star:28k
DeepSpeech
DeepSpeech 是一个开源的嵌入式(离线、设备上)语音到文本引擎,可以在从 Raspberry Pi 4 到高性能 GPU 服务器等各种设备上实时运行。
支持语言:中文。
项目地址:https://github.com/mozilla/DeepSpeech
使用文档:https://deepspeech.readthedocs.io/en/r0.9/
中文介绍:https://linux.cn/article-14233-1.html
star:23.3k
PaddleSpeech
PaddleSpeech 是一个开源、易用、多合一的语音处理工具包,包含语音识别、语音翻译(英-中)、文本-语音、标点恢复功能。
PaddleSpeech 荣获 NAACL2022 最佳演示奖。
支持语言:中文、英文。
项目地址:https://github.com/PaddlePaddle/PaddleSpeech
star:9k
ESPnet
ESPnet 是一个端到端的语音处理工具包,功能包含文本转语音、语音翻译、语音增强、说话者二值化、口语理解等等。
支持语言:中文。
项目地址:https://github.com/espnet/espnet
star:7.3k
ASRT
ASRT 是一个基于深度学习的中文语音识别系统,在训练中使用了大量中文语音数据,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。
项目地址:https://github.com/nl8590687/ASRT_SpeechRecognition
star:7.1k
SpeechBrain
SpeechBrain 是一个基于 PyTorch 的开源、全能的对话人工智能工具包,可用于开发最先进的语音技术,包括语音识别系统,说话人识别、鉴定和记录,语音增强,语音分离,语言识别,语言翻译等。
支持语言:中文。
项目地址:https://github.com/speechbrain/speechbrain
中文介绍:https://blog.csdn.net/lzx159951/article/details/118304731
star:6.8k
WeNet
WeNet 是一款面向工业落地应用的端到端语音识别工具包,现已更新到 WeNet 2.0,在各种语料库上的相对识别性能比原始 WeNet 提高了 10%。WeNet正在积极开发 3.0版本,更关注无监督自学习、设备端模型探索和优化,以及生产级 ASR 的其他特性。
支持语言:中文。
项目链接:https://github.com/wenet-e2e/wenet
论文地址:https://arxiv.org/abs/2203.15455
star:3.4k
MASR
MASR 是一个基于端到端的深度神经网络的中文普通话语音识别项目,同时兼容在线和离线识别。
支持语言:中文。
项目地址:https://github.com/nobody132/masr
中文介绍:https://blog.csdn.net/HELLOWORLD2424/article/details/123667877
star:1.8k
FunASR
FunASR 是一个开源语音识别工具包,有望在语音识别方面建立学术研究和工业应用之间的桥梁。通过支持在 ModelScope 上发布的工业级语音识别模型的训练和微调,研究人员和开发人员可以更方便地进行语音识别模型的研究和生产,并促进语音识别生态系统的发展。
支持语言:中文、英文。
论文地址:https://arxiv.org/abs/2305.11013
项目地址:https://github.com/alibaba-damo-academy/FunASR
更多介绍:https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary
star:1.2k
趋动云助力ASR科研
趋动云作为领先的算力服务商,在多媒体领域为研究者和开发者提供卓越支持,具有多种优势。
首先,其算力使用灵活,成本可控。用户可按需使用 GPU 算力,避免昂贵的设备采购费用,实现更经济高效的计算资源管理,提升研究的成本效益。
其次,趋动云提供可扩展的存储方案。在处理庞大多媒体数据的模型训练和测试时,扩展性存储方案可以使用户能够根据实际需求自由存储和获取数据,为研究提供更大的灵活性和便利性。
另外,平台内置了丰富的数据集和 AI 模型资源,覆盖多个领域。用户可以方便地选择适用于其研究的数据集和模型,从而节省大量研究时间。例如,zhvoice 语料库和 THCHS-30 汉语语音识别数据,即可用于多种语言相关任务。
总而言之,趋动云在提供强大计算资源和全面支持的同时,通过其安全可靠的多样化软件配置和强大的GPU计算资源,为研究者提供了一个安心、高效的研究环境。这使得研究者能够更专注于 ASR 技术的研究和优化,推动该领域的发展。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
大神点评
3
准状元沃尔
2024-1-14 20:50:51
显示全部楼层
广告位,,坐下看看
回复
使用道具
举报
巫山夜话
2024-1-16 11:19:24
来自手机
显示全部楼层
对不起,我就来看看,不说话
回复
使用道具
举报
卧龙僧
2024-1-16 22:17:25
来自手机
显示全部楼层
楼主呀,,,您太有才了。。。
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
默0默
金牌会员
0
关注
0
粉丝
92
帖子
Ta的主页
发布
发消息
加好友
最近发表
无人驾驶的“真相”:不过是辅助驾驶的“高级版”,别被忽悠了!
珠海格力申请分布式智能家居的定时方法专利,解决现有技术中智能
人形机器人“天工”再升级:登百级台阶,雪地高速奔跑
无人驾驶真的靠谱吗?2025年技术突破还是隐患?
最新AI大模型来了!马斯克发布Grok 3聊天机器人
天启坦克?央视首公开99A坦克主动防御!同时拦截火箭弹和无人机
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们