门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助中心
公社首页
中国人工智能社区
公社版块
广播
Follow
升级会员
动态
Space
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
文章
帖子
公社群组
用户
好友
收藏
道具
勋章
任务
淘帖
动态
日志
相册
分享
记录
留言板
广播
群组
门户
导读
排行榜
设置
我的收藏
退出
首页
›
智能技术
›
语音识别
›
语音识别“拐点”已至,现在切入才是好时机? ...
返回列表
语音识别“拐点”已至,现在切入才是好时机?
[复制链接]
jimmyni
2024-4-30 09:36:05
显示全部楼层
|
阅读模式
“现在切入语音识别正是好时机,更早进入也是在教育市场,过去两年一些公司的出货量经历了非常残酷的考验。现在行业进入拐点时期,我们进入正是最好的时间点”,探境科技CEO鲁勇对<电子发烧友>表示。
“拐点”之说何来?
根据Gartner在今年8月底发布的“人工智能技术成熟度曲线”可以看到,处于
生产力成熟期
(Plateau of Productivity)的技术仅有两项:
语音识别
(Speech Recognition)和
GPU加速器
(accelerators),且正处于爬升态势。来自市场的反馈同样如此,这两项技术是当前落地最快、最多的AI项目。
在语音识别的落地项目中,场景最多的当属智能家居领域,以智能音箱为典型代表。但是,从用户反馈来看,
两大问题已经浮现出来
:一是在真实语音交互场景中,在复杂的声场环境、噪音的影响下,语音识别准确率直线下降;二是越来越多安全问题的爆出,让用户对于家中的这个“云耳朵”充满了担忧。
第一批智能音箱在满足了用户的好奇心之后,成为非常鸡肋的一个产品,要么在家中落灰,要么需要时时警惕,仅在偶尔使用时才敢接上电源。
在成为爆款这件事上,智能音箱让业界失望了。
满足好奇心过后,语音交互下一波靠什么撬动市场?是价格吗?
是,也不全是。在巨大的市场痛点面前,谁能抓住用户需求,真正解决问题,谁才有希望在这条拥挤的赛道上前进一小段。
市场正在开始新一轮的筛选。
市场需要什么样的语音识别方案?
语音作为人机交互的重要方式之一,终极目标是实现自然的交互。而当前的技术远远达不到,
在语音识别这一环节,解决噪音问题、提升远场语音识别率、消除用户顾虑/提升安全性成为当务之急。
在家居场景下,
语音识别面临两大挑战
:
第一是低信噪比。在我们的生活场景中,存在着一些高噪声的环境,比如抽油烟机或者扫地机器人,这些设备上噪声最低也有70分贝。麦克风距离这些设备非常近,而操作者距离麦克风会更远些,这些因素叠加,会导致语音识别设备采集到的信噪比非常低,给识别带来很大的挑战。
第二是非稳态的噪声的影响。传统降噪算法无法处理,比如电视剧声音/音乐突然的节奏变化,或者是做饭时叮叮咣咣的声音等,都带有突发性和不可预见性。
为了解决上述挑战,增强语音信号质量、提升信噪比,业界通常采用麦克风阵列的方式。但是,
在干扰信号和目标声源方向接近的场景下,传统的麦克风阵列增强算法几乎无法处理
。
据<电子发烧友>了解,目前市面上的智能语音芯片方案可粗略分为两种:一种是披着“AI”外衣的DSP,这种方案可实现轻量级的NN支持,在识别指令数量方面有提升,但是通常并无降噪支持;另一种可支持RNN/CNN/DNN等模型、架构上通常采用MCU+NN或MCU+DSP+NN。
在鲁勇看来,未来用户体验要求会越来越高,相应地将造成算法越来越复杂,对算力的要求将更高。
只有从底层进行颠覆性创新,才能真正解决问题
。
揭密探境语音识别三大核心技术
AI降噪+HONN神经网络提升识别率
在语音识别的研发过程中,一个完整的识别链路可以简化为麦克风输入、降噪处理、语音识别、识别结果输入四个环节。想做好识别,首先要在降噪处理上下功夫。
探境自研的AI降噪算法基于深度学习,不仅能够处理稳态的噪声,非稳态的突发性噪声也能很好的过滤。据探境科技副总裁李同治介绍,凭借探境AI降噪算法的有效性,他曾将一批信噪比在3dB左右的语音数据做了测试,降噪后比降噪前提高30%识别准确率。
在对声音进行降噪处理之后,就进入到了语音识别环节。在这一环节中,神经网络模型所需的算力决定了模型的描述能力,同时也决定了模型处理能力和识别率的上限。
以往的语音识别算法,用的最多的是全连接的操作DNN/DTNN。据了解,国内多家语音识别芯片采用的都是DNN的方法。
探境
将计算机视觉的经验迁移到语音识别中
,在语音识别算法上加入了更多的卷积操作,重新设计了一个
高计算强度的神经网络
,即HONN(High Operation Neural Network)。
图:DNN与HONN区别
在高计算强度神经网络里,每一个处理单元变成了立体维度,所能处理的信息量和计算密度,也远远超过传统DNN/DTNN的方法。
由于多了一个维度的识别,性能方面得到了显著提升:DNN需要1.6M的存储空间,而HONN仅需要350k,这意味着可以使用存储空间更少、成本更低的芯片来做语音识别。
同时,DNN与HONN所需的算力相反。在处理高强度模型单帧时,HONN需要超过几百兆OPS,而一般的DNN模型需要个位数的算力。两者相差超过30倍。对于神经网络来说,模型所需的算力决定了模型的描述能力,同时也决定了模型处理能力和识别率的上限,从国内外趋势来看,
最近工业和学术界趋向于使用算力需求大的模型来做建模。
据李同治介绍,就好比动物界大脑新皮层的容量决定着物种的智力程度,比如人类的新皮层容量是普通哺乳动物的近100倍,相应的,人类的智能程度超出普通哺乳动物几个数量级。
卷积运算与人类大脑负责感知模块的处理方法类似,能够提取满足大脑认知的本质特征。在参数数量相同的条件下,HONN通过卷积操作能够提供更高的计算强度,提高模型的算力需求。相对安静的环境下两者之间差别不大,但是
当信噪比进一步降低时,基于HONN的方法识别优势非常明显
。
端到端FCSP双麦算法简化识别流程
“为了克服传统分模块语音增强算法的缺点,我们设计出了基于FCSP的端到端AI双麦算法”,李同治表示。FCSP(Frequency Complex Subspace Projection)是探境自研的频域复数子空间投影算法的简称。
据了解,“端到端”是目前国际前沿的处理算法,亚马逊、谷歌等都在采用类似的方法。探境基于FCSP的端到端双麦算法直接输入阵列信号,输出的是最终的识别结果,中间部分全部交给基于深度学习的AI算法来处理,不再使用传统的数字信号处理方法。信号增强与识别模块整体以降低识别错误率为目标进行优化,避免了语音增强与语音识别模块错配的问题。在信噪比为0dB时,相对于传统的处理算法,相对识别错误率降低超过20%。
存储优先的SFA芯片架构
鲁勇谈到,在核心技术方面,市面上一些玩家像是在跛着脚走路,要么有芯片没算法,要么有算法没芯片,这样在市场上无法形成真正的竞争力。
性能优异的算法+算力强劲且通用性强的芯片,才能充分发挥实力
,探境就是要提供全栈式的技术能力,包括芯片设计、算法研究、软件开发和系统集成,提供Turn-key整体解决方案。
探境的骨干力量在行业内拥有10-20年的工作经验,其中一些曾就职于Marvell、英伟达、高通、Intel、硅谷数模等知名公司。基于多年的经验和对AI未来的预判,他们决定推翻冯诺依曼体系,推出了
存储优先(SFA)的芯片架构
。
SFA架构以存储驱动计算,
具有能效比高、资源利用率高、通用性强等特点
。在SFA架构上实现深度学习时,只需要一个较高层次的神经网络描述。SFA的编译器首先将这个神经网络进行全部融合,然后根据具体架构实现的规模产生一个统一的存储流图,再进行存储节点的时空映射,最后根据各个节点之间的计算类型配置计算单元,组合起来形成一个统一的固件供SFA控制器使用。
在28nm常规工艺芯片的对比测试中,SFA架构在乘法器数目相同情况下(DRAM为LPDDR4),结果如下表,系统能效超过4T OPS/W,甚至超过12nm的芯片方案。
注:测试方法为带有卷积加速器扩展指令的DSP模式与SFA架构模式的对比
探境有一句宣传语:
NPU的性能,MCU的价格
,背后动力主要来源于芯片架构的优化。设计这样一个全新的架构难度不言而喻,据鲁勇介绍,其中涉及数学、计算机架构、数据管理调度、硬件设计经验等,是个复杂的综合工程,并且要把这些方法揉在一起发挥出最大效力,通过算法和调度方式降低资源的连接复杂度,从而降低功耗,提高对数据本身的使用效率。他强调,
SFA存储优先,不同于存算一体架构
。后者需要从底层工艺去修改芯片设计,而存储优先是算法上的更新,无需修改芯片底层单元库。在当前商业化节奏越来越快的潮流之下,这种架构更通用、更兼容,大大加快了商业化落地速度。
探境能否渐入佳境?
依托于独有的AI降噪技术和HONN神经网络,探境的Voitist音旋风611可以覆盖绝大部分生活场景,量产供货仅半年,已经实现百万级出货。目前,探境拥有约30家合作伙伴,包括美的、海尔等智能家居制造大厂,智能家居制造商阿凡达智控、渠道商世强科技也刚刚与探境达成合作。
从探境首次曝光的产品矩阵来看,覆盖低功耗产品、主流产品、旗舰产品三大系列、六颗AI芯片,对于离在线一体、本地NLP、超低功耗产品等都有布局,
希望形成智能家居网络的矩阵式入口
。
离线智能语音交互是当前一个重要的细分领域
,无需联网可在本地实现语音交互,不仅能够保护隐私安全,同时也可以减少用户大量数据传送到云端的压力,当前主要应用于白电市场。可通过离线智能语音控制的家电产品目前包括:灯控、空调、电视机、油烟机、玩具等。
不过,探境不仅仅满足于做一家语音方案公司。初尝到语音市场的甜头后,探境把触角伸到了下一个红利市场——图像识别。据鲁勇介绍,
探境的图像芯片在2019年Q4已经流片成功,在某些领域已经开始产生营收了
。根据公布的核心指标来看,
核心能效比IPS/W达800
,是目前全球AI芯片中最高的,而这足以支撑探境去云端推理市场正面PK。
不过,就像鲁勇所说,AI芯片像马拉松长跑,比的是耐力,而不是冲刺速度,在这场比赛中,不是要看谁跑得快,而是要看谁有潜力到达终点,谁在中途不走岔路。
探境能否从智能家居开始,打稳地基,渐入佳境?还需要市场应用最后给出答案。
作者:张慧娟
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
大神点评
2
@Xizi_MZoDWffA
2024-4-30 21:44:53
来自手机
显示全部楼层
我也顶起出售广告位
回复
使用道具
举报
巫山夜话
2024-5-3 07:40:52
显示全部楼层
大神,请收下我的膝盖
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
浏览过的版块
网贷观察
jimmyni
注册会员
0
关注
0
粉丝
14
帖子
Ta的主页
发布
发消息
加好友
最近发表
大疆RC Track无人机跟拍神器曝光:116克,IPX7防水
北京通州破获无人机“黑飞”案件
无人机“黑飞”被严惩!北京警方查处两起违法案件!
多款无人机新品在四川天府新区发布
人形机器人、人工智能、绿色低碳……2025中关村论坛科技感拉满
无人机“黑飞”,两人被依法处理!相关规定戳
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们