门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
公社水吧
›
大话智能
›
AI识别方言困难!专家探索用算法度量方言差距,提议构建 ...
返回列表
AI识别方言困难!专家探索用算法度量方言差距,提议构建统一框架
[复制链接]
千年虫e
2024-2-1 16:01:11
显示全部楼层
|
阅读模式
·确定一系列核心方言并为其建立自动语音识别(ASR)模型,当一种未知方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言的内容。
·方言应用的窗口期大约是二三十年。AI识别方言的实际困难大,我国方言体系之间甚至每一类方言内部的地域差异都普遍存在,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。
信也科技算法科学家倪博溢。
10月24日,第八届信也科技杯算法大赛总决赛上,9支人工智能队伍角逐,探索利用AI技术识别和还原语音数据中的方言信息,衡量不同方言之间的距离,推动智能语音识别技术发展。
方言距离是一个开放问题,例如人们通常在直觉上认为上海话与杭州话之间的距离比上海话和北京话之间的距离更近。从实用性来讲,距离越接近的两种方言,其自动语音识别引擎在交叉使用时也可以得到更好的效果。如此一来,利用少数核心方言的自动语音识别引擎来转写邻近的各种未知方言,就是方言ASR识别问题的潜在解决方案之一。
金融科技集团信也科技(NYSE:FINV)首席科学家王春平表示,本次大赛的目的是寻找数据驱动的最佳算法和模型,更好地理解方言和口音特征,提升用户体验;长期来讲,以核心方言来支持所有方言转写,找到最优的核心方言布局。
度量方言间的距离
我国幅员辽阔,人口众多,方言情况十分复杂,方言体系之间甚至每一类方言内部的地域差异都普遍存在。这导致在客户服务中,语音交流常常会遇到方言或口音挑战。
要将客服人员和客户沟通的过程中产生的大量语音数据进行完善的分析质检,就需要语音、NLP(自然语言处理)算法进行批量的处理、分析、质检。通常质检任务的第一步算法就是ASR转写。
但信也科技算法科学家倪博溢表示,ASR转写存在的一个实际问题是,通用ASR模型建立在普通话数据基础上,无法对方言进行准确转写。目前,商业解决方案还不能满足大部分方言的转写,大多数可用的汉语ASR模型要么不支持方言,要么只覆盖数量有限的方言。
理论上,最理想的解决方案是为每一种方言建立ASR引擎,只要有语音和对应的文字,就可以训练出每一种方言的模型,但这种方式成本高昂、耗时耗力。为一种方言单独建模,往往需要考虑该地区的方言是否较为统一、地区经济和科研实力是否允许。
倪博溢认为,工程上可行的方式是,首先确定一系列核心方言并为其建立ASR模型,当一种从未被AI识别过的方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言。但是,“一种方言跟另一种核心方言究竟要多相似,才能用这种核心方言作为对照去识别其他方言,这是需要抉择的。”因此度量不同方言之间的距离是解决问题的关键。倪博溢表示,研究方言距离问题有助于进一步探索如何从语音层面建模方言、抽取方言特征、分析方言形成和演化机理,其结果也可以和传统方言分类方法做合理性的相互印证,并服务于更广泛的研究目标。
第八届信也科技杯算法大赛总决赛现场,选手在答辩。
那么方言之间距离的远近究竟要如何衡量?倪博溢表示,目前他们对方言的读音进行加权计算,得出两种方言在0-100之间的数值,代表距离远近,这是一个相对客观的指标。但判断不同方言的距离还有其他方式,此次信也科技杯算法大赛也是为了在思想碰撞中寻找衡量方言距离的优秀算法方案,拓展商用ASR接口的模型适用范围,推动核心方言引擎的布局,提高方言识别准确率。
方言底层逻辑+大模型
今年5月,Meta推出大规模多语言语音 (MMS) 模型,将文本转语音和语音转文本技术从大约100种语言扩展到1100多种,还可以识别4000多种口头语言。在国内,抖音上线了地方方言自动翻译功能,“一键”可将粤语、闽语、吴语、西南官话、中原官话等方言视频转化出普通话字幕。科大讯飞的方言识别语种扩充至23种,探索智能语音助力方言保护的路径。
语言是人类的特有属性,也是文化的载体。有的语言甚至只有少数几人掌握,一旦这些老人去世,这种语言也就消失了。语言一旦消失,文化无处可寻。
“方言是一个宝库,里边蕴含的东西太多了。如果只剩下普通话,就缺乏了语言的乐趣。但目前方言正在消失,方言应用的窗口期大约是二三十年,AI识别方言的实际困难很大,经济价值不大,所以很少有人愿意推动做这件事。”倪博溢表示,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。今天已经拥有了互联网数据,如果能够取消数据获取的壁垒,将语音数据开放成公共资产,对研究者而言是一大利好。
尽管信也科技金融业务带来的客服语音积累了方言语料,但从大量语音中提取方言数据又是另一个挑战,从10000小时的语音数据中找出100小时的方言犹如大海捞针。倪博溢表示,识别方言的距离有助于解决这一难题,但这只是AI识别方言的解决方案之一,仍有其他解决方案可以探索。
在倪博溢看来,AI识别繁多的方言,不能依靠逐个击破,而是要研究方言的底层逻辑和特点,构建统一识别框架。同时大模型的预训练可以自我学习,探索借助大模型技术提高识别准确性。倪博溢提出一种设想,由于音标是固定的,能否利用国际音标序列标注各种方言,构建语言模型识别方言,他认为这或将解决绝大多数方言没有对应文字的问题。他也期待通过这次比赛建设长榜赛题(即持续性常态赛题,参赛者可长期打擂台),支持社区共建语音语料和模型算法,以较低成本服务于方言保护。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
发表新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
千年虫e
注册会员
0
关注
0
粉丝
13
帖子
Ta的主页
发布
加好友
最近发表
重量仅4.21克!我国科研团队研发出太阳能动力微型无人机:在纯自
从几百到几亿美元,各类无人机已遍布战场,中国该如何应对?
航拍无人机怎么选?大疆无人机盘点推荐
比“顺丰双尾蝎”还强!国产11吨级无人机开建,又是全球第一?
大疆今天发布的无人机,让我觉得上天也没那么难
“彩虹”VS“翼龙”,中国军用无人机两大王牌,都各有哪些精品?
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们