门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
语音识别
›
语音识别能力再提高 谷歌云平台可识别7种语言和方言 ...
返回列表
语音识别能力再提高 谷歌云平台可识别7种语言和方言
[复制链接]
burgh
2022-6-17 21:21:23
显示全部楼层
|
阅读模式
【CNMO新闻】目前为止,谷歌云平台(GCP)上云文本到语音的API已经可以识别七种语言和方言,并且可以用新的声音说话,包括31种由WaveNet合成的语言,WaveNet是谷歌母公司DeepMind开发的机器学习网络。
云语音到文本API的多通道识别功能(有助于区分多个音频通道),在经过长达一个月的预览后,正在全面启动。改进的语音识别模型比它们的前身准确率高出60%以上,设备配置文件也是如此。设备配置文件的一个功能是调整GCP声音,以便在一系列硬件上进行最佳播放。
谷歌云平台
谷歌产品经理丹·阿哈龙在一篇博客中写道,“语音识别与合成能力对于使人机交互更加自然、简单和普便至关重要,但目前这种能力仍有待提高。在创建智能语音应用程序时,语音识别的准确性至关重要。”
谷歌在2018年4月推出了针对特定应用所定制的全新高级语音到文本模型:增强的电话和视频。视频模型可以优化涉及四个及以上声音且有大量背景噪音的长时间录音(超过两个小时),而电话模式最好是两到四人。
当时,谷歌表示,视频模式使用的学习技术类似于YouTube字幕,显示错误减少64%。而增强手机模型,目前广泛应用于企业谷歌云客户,转录错误有所减少。
多通道识别特性提供了一种更简单的方法,可以通过为每个单词自动表示单独的通道来转录多个通道的音频。该特性通常也是可用的,现在可以获得SLA和其它企业级的保证。对于没有单独录制的音频样本,它使用机器学习为每个单词添加一个识别说话人号码的标签,谷歌表示,标签的准确性会随着时间的推移而提高。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
3
宁莹莹
2022-6-18 07:00:03
显示全部楼层
当我看到你的帖子时,我只有赞!狂赞!超赞!力赞!强赞!无敌赞!必须赞!史上最赞!赞了又赞!一赞到底了!
回复
使用道具
举报
leeedaaa
2022-6-18 16:32:37
显示全部楼层
赞赞赞赞赞赞赞赞
回复
使用道具
举报
打喷嚏了
2022-6-20 08:04:13
显示全部楼层
呵呵,低调,低调!
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
burgh
高级会员
0
关注
0
粉丝
113
帖子
Ta的主页
发布
加好友
最近发表
机器人
通用机器人的梦想,大模型能否一臂之力?
超700台机器人在这里造车 穿越机视角一览超级工厂
不是针对谁!中国在册无人机126万架,这还是解放军看不上的!
5000元档最强无人机?大疆Mini 4 Pro曝光:配置更强了
向全球宣布,中国测试高超无人机,技术领先美国,能跨大洋扔核弹
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们