智客公社

标题: 语音识别能力再提高 谷歌云平台可识别7种语言和方言 [打印本页]

作者: burgh    时间: 2022-6-17 21:21
标题: 语音识别能力再提高 谷歌云平台可识别7种语言和方言
【CNMO新闻】目前为止,谷歌云平台(GCP)上云文本到语音的API已经可以识别七种语言和方言,并且可以用新的声音说话,包括31种由WaveNet合成的语言,WaveNet是谷歌母公司DeepMind开发的机器学习网络。

云语音到文本API的多通道识别功能(有助于区分多个音频通道),在经过长达一个月的预览后,正在全面启动。改进的语音识别模型比它们的前身准确率高出60%以上,设备配置文件也是如此。设备配置文件的一个功能是调整GCP声音,以便在一系列硬件上进行最佳播放。



[attach]738377[/attach]



谷歌云平台

谷歌产品经理丹·阿哈龙在一篇博客中写道,“语音识别与合成能力对于使人机交互更加自然、简单和普便至关重要,但目前这种能力仍有待提高。在创建智能语音应用程序时,语音识别的准确性至关重要。”

谷歌在2018年4月推出了针对特定应用所定制的全新高级语音到文本模型:增强的电话和视频。视频模型可以优化涉及四个及以上声音且有大量背景噪音的长时间录音(超过两个小时),而电话模式最好是两到四人。

当时,谷歌表示,视频模式使用的学习技术类似于YouTube字幕,显示错误减少64%。而增强手机模型,目前广泛应用于企业谷歌云客户,转录错误有所减少。

多通道识别特性提供了一种更简单的方法,可以通过为每个单词自动表示单独的通道来转录多个通道的音频。该特性通常也是可用的,现在可以获得SLA和其它企业级的保证。对于没有单独录制的音频样本,它使用机器学习为每个单词添加一个识别说话人号码的标签,谷歌表示,标签的准确性会随着时间的推移而提高。
作者: 宁莹莹    时间: 2022-6-18 07:00
当我看到你的帖子时,我只有赞!狂赞!超赞!力赞!强赞!无敌赞!必须赞!史上最赞!赞了又赞!一赞到底了!
作者: leeedaaa    时间: 2022-6-18 16:32
赞赞赞赞赞赞赞赞
作者: 打喷嚏了    时间: 2022-6-20 08:04
呵呵,低调,低调!




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4