门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
请选择
进入手机版
|
继续访问电脑版
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
公社水吧
›
大话智能
›
被罗永浩看中后一战成名,小米高通投资!这家AI创企牛在 ...
返回列表
被罗永浩看中后一战成名,小米高通投资!这家AI创企牛在哪?
[复制链接]
zzz861025
2021-6-10 08:24:20
显示全部楼层
|
阅读模式
智东西(公众号:zhidxcom)
作者 | 韦世玮
编辑 | 漠影
夏至将至,和气温一样持续攀升的还有TWS(真无线蓝牙平面声)耳机市场的热度。
据业内机构统计,截至5月12日,往年已有25款品牌TWS耳机推出。仅在刚刚过去的5月,OPPO、vivo、华为、努比亚、小度等玩家也相继推出TWS耳机新品,进一步加剧市场混战。其中,前三位玩家的TWS耳机均支持通话降噪。
与苹果AirPods带火的自动降噪不同,通话降噪次要针对耳机中的麦克风,经过算法使麦克风收音愈加纯粹,而自动降噪次要针对扬声器,算法围绕用户“听”的过程停止处理。
随着通话降噪逐渐成为当下各路玩家PK的次要功能之一,也出现了许多公司竞相押注通话降噪赛道,各类处理方案百花齐放。
成立于2017年2月的大象声科,则是专注AI智能听觉技术赛道上一家颇具特征的企业,
次要基于机器听觉AI算法开发智能语音加强和语音交互处理方案。
近期,智东西也无机会与大象声科的核心团队人员交流,在了解他们创业故事、核心技术和发展途径的过程中,我们也看到了当下通话降噪技术范畴的发展现状。
实践上,大象声科的AI通话降噪算法最后被锤子科技创始人罗永浩看中,运用在了坚果手机上,随即一战成名,业务逐渐向智能手机、PC、车载声场控制、智能家居、助听器等多个范畴拓展。同时,他们背后还有小米、高通等企业的投资。
往年4月,大象声科还官宣了一笔超亿元人民币的B轮融资,由兰璞资本领投,佳康科技基金、紫金港资本跟投。这是它成立四年多以来公开的第4笔融资。
下面是我和大象声科战略总监的交流干货:
大象声科公司团队合影
一、硬核创始团队加持,用AI拓展人类听觉感知
“与机器视觉相比,如今机器在听这件事情上并不够智能。”大象声科战略总监谈到,大象声科成立的初衷就是希望经过机器听觉技术,赋予机器像人一样的听力,比如说能处理经典的鸡尾酒会成绩。
何为鸡尾酒会成绩?简单来说,当许多人同在一个场合内说话时,人类能经过留意力集中在某一个人的说话中,而忽略背景的其他说话或噪音,这也是人类听觉系统的神奇之处。
但对机器来说,鸡尾酒会成绩是一个极其大的应战。由于声波的堆叠与互相关扰,让机器很难在信号采集终了后对它们停止有效的分离处理,机器难以像人一样有选择性地去听某一部分声响。
这就是大象声科想应用AI技术处理的成绩,从另一个角度看,就是将AI(人工智能)用于人类听觉感知范围的拓展,“这也是我们创始人们不断希望完成的目的。”战略总监说。
青萍始于微末。实践上,
大象声科如今成绩与其创始团队的硬核实力毫不相关。
大象声科董事长兼CEO苗健彰
是位80后的延续创业者,拥有西安交大通讯与信息工程学士及加拿大UBC软件工程硕士学位,曾在温哥华RBC及IBM等全球知名企业就职。虽然一路顺风顺水地走来,但苗健彰心底里仍保留着创业成事的梦想。
终于在2014年,苗健彰选择了辞职下海,末尾在温哥华当地创办科技公司。此时适逢AI技术在北美蓬勃发展,他敏锐地发现,在语音前端信号处理的技术链下游环节,存在亟待深化研发的技术难题。换言之,就是存在商业机会。
经过对市场和行业的广泛调研与摸底,苗健彰更坚定了从事语音处理AI技术研发与落地的方向和决计。而他这股创业热忱下对技术创新及运用落地的执着,也打动了时任俄亥俄州立大学终身教授,在语音人工智能范畴处于全球抢先地位的顶级迷信家——
汪德亮教授。
于是在2016年,汪教授成功加盟创业团队任首席迷信家,并推荐了其实验室的访问学者——
时任内蒙古大学教授的张学良。
不断以来,张学良教授在CASA和DNN等技术研讨与落地实施等范畴有深沉造诣,随后他也以CTO的身份成功加盟。
随着两位行业大咖的加盟,并基于创始团队对国内AI市场蓝海的判别与将来蓬勃发展的看好,2017年2月,大象声科在深圳正式注册成立。
从左至右分别为大象声科创始人、CEO苗健彰,大象声科结合创始人、首席迷信家汪德亮,大象声科结合创始人、CTO张学良
目前除了深圳总部外,大象声科在南京、上海、台湾等地均有分部,全体团队规模约70人,核心研发团队占比超60%。
基于学术界知名学者的深沉技术阅历和研讨实际加持,大象声科也开启了机器学习语音赛道的新航线。
二、以AI通话降噪为核心的技术城池
技术是立足之本。在公司成立之初,大象声科就瞄准前端信号处理赛道,率先将深度学习技术运用到语音加强中。
“在此之前,前端信号处理范畴较为传统的主流方案是基于稳态噪声假设下,应用滤波器将噪音信号过滤掉,留下一部分相对明晰的语音信号。”战略总监解释,但这降噪效果非常有限,由于真实场景中存在的非稳态噪音如马路上的噪音、咖啡厅内噪音和地铁中的噪音等是不符合稳态假设的。
而以汪德亮教授的CASA研讨为导向的AI流派,则应用AI将人声与非人声停止区分,从各类复杂的非稳态环境噪音中分离与提取出明晰的人声,从而打破了传统语音信号处理的瓶颈。
在这一过程中,降噪的技术难题从最后的单纯过滤成绩变成了一个分类成绩。也正是基于这一差异化技术途径,大象声科逐渐构筑起了本人的技术壁垒。
算法方面,目前大象声科核心声学算法覆盖智能降噪、回声消弭、混响抑制、语音唤醒、声源定位、波束构成、声纹辨认、DHS深度啸叫抑制等方面,为客户提供一系列面向智能手机、蓝牙耳机、PC、车载、助听器等范畴的智能语音加强和语音交互处理方案。
“我们的底层技术是经过AI去做语音信号处理,而通话降噪是我们技术落地的基础之一。”战略总监告诉智东西,面向不同的细分赛道和声学结构,大象声科还相应发布了一些列语音加强处理方案。
例如,大象声科针对蓝牙耳机推出的Vocplus Headphone处理方案,基于深度学习和计算听觉场景分析实际而研发,可以实时分离人声和背景噪声并提取明晰人声,大大提升用户在地铁、商场、马路等各类噪声环境下的通话体验。目前,该方案还拥有Al单麦、AI双麦、AI三麦和AI单麦骨传交融版本。
“全体来看,得益于汪教授二三十年来的研讨阅历,我们的技术储备非常多。”战略总监提到,包括几年后的技术途径,大象声科都有非常明晰的规划,并较为清楚地看到技术的发展方向,以此不断拓展公司的技术节点与业务规划。
大象声科公司办公区
三、创业之初的关键一役,业务拓展要啃最硬的骨头
虽然拥有一支硬核的创始团队以及不少前沿技术阅历,大象声科在成立之初还是遇到了不少难题,融资就是公司起步的其中一道难关。
2018年1月,当大象声科拿到由紫金港资本、挚金资本及狗尾草智能投资的天使轮融资后,如何推进技术方案落地是摆在他们面前的一大难题。
“当时公司只是几个人组成的小团队,在没有大客户背书的状况下,我们是很难直接被小米、华为等手机大厂商认可的。”战略总监回忆道,因此最后大象声科在寻求技术落地方面屡屡受阻。
对永远有预备的新玩家来说,机会也许会迟到,但从不会出席。恰逢当时的锤子科技正紧锣密鼓地停止新产品研发,“相对而言,老罗是一个喜欢尝试新事物的人。”战略总监说,因此锤子科技也率先尝试将大象声科的Vocplus Telecom智能通话降噪方案用在坚果手机上。
2018年4月,随着大象声科智能通话降噪方案在坚果手机3上量产,也让小米、高通等厂商陆续看到了大象声科的潜力与价值,客户和融资机会随之而来,2018年也成为公司扬帆起航的重要一年。
2018年7月和11月,大象声科相继完成由小米科技和高通风投投资的数千万人民币Pre-A轮融资,以及元禾原点、凯泰资本、猎豹移动、理则股权投资管理投资的A轮融资。
同时在这一年,大象声科的Vocplus Gaming下行方案还成功在努比亚红魔Mars量产,并与高通结合展现了基于高通骁龙855芯片的AI通话降噪方案。
但手机并不是大象声科AI通话降噪技术独一的落地方向,从2019年起,大象声科末尾朝着更广阔的业务边界拓展。同年12月,其Vocplus Headphone方案初次在OPPO Enco Q1无线降噪耳机成功量产,正式打开耳机业务。
紧接着在2020年3月,大象声科正式发布Vocplus PC方案,并成为首个在Intel GNA上运转的第三方语音方案商。这意味着,大象声科的AI语音降噪算法技术再一次得到广泛落地的机会,包括联想、惠普、戴尔等计算机公司,都是其重要的已有或潜在客户。
实践上,2020年对大象声科而言也是一个重要的发展节点。
从6月其单麦克风骨传导AI降噪算法落地散步者TWS耳机,到9月初次打入华为供应链,到年底联想首款搭载其算法的PC在海外正式量产发布,再到2021年终同多家造车新权利深度合作,大象声科一路狂飙突进,AI降噪算法技术完成多点落地开花。
如今,大象声科的“冤家圈”已覆盖高通、英特尔、Arm、恒玄等国内外知名芯片厂商,以及华为、小米、OPPO、vivo、联想、摩托罗拉等品牌企业。
不过,从手机到耳机再拓展至PC,
大象声科一步步切入市场的思索逻辑是怎样的呢?
“我们的思绪是要先啃最硬的骨头,但这并不代表我们要死磕。”战略总监谈到,一方面,最难的方向也存在较大的市场空间,对公司发展来说是好事情;另一方面,从较高的难点末尾起步,也能为公司带来更广阔的技术空间。
例如在TWS耳机兴起之初,大象声科以为AI降噪算法落地耳机的其中一个难点在于,AI算法本身的尺寸较大,不只需求经过大量数据训练以构成神经网络,还对算力有较高需求。但耳机的存储空间比手机小得多,意味着它能承载的算法尺寸也更小。
因此,如何将大尺寸算法“裁剪”成能放进耳机中的小尺寸算法,也是一个AI降噪算法落地耳机范畴的一块硬骨头。
正是基于这一思绪,大象声科的业务不断成熟拓展。自成立至今,大象声科Vocplus AI智能语音加强与语音交互算法已赋能近亿台智能终端产品。
四、海外市场是重要业务方向,加速完成人声之间分离
现阶段,智能手机、蓝牙耳机、PC范畴和智能车载仍是大象声科的次要落地方向,“但每一个赛道对我们来说都非常重要。”战略总监谈到,从业务层面看,将来大象声科也会逐渐朝AR/VR、IoT、穿戴设备以及助听器等对人机交互需求高的场景进一步延伸,持续拓展新平台。
不只如此,大象声科还将进一步朝海外市场拓展。“由于我们公司团队本就拥有较为国际化的传统基因。”他解释,同时包括摩托罗拉、联想等在内的国际化品牌客户,也为大象声科的海外业务拓展提供了阅历,这也将是公司接上去的业务发展方向之一。
而在技术层面,大象声科仍将专注于AI智能听觉技术的研发与运用,加速在移动通讯、远程会议、蓝牙耳机、助听器、智能家居及车载声场控制等范畴的算法及公用芯片的研发。
深度学习声响分离技术的流程(图源:IEEE Spectrum)
“我们要把基于AI做语音信号处理这件事情做到极致。”战略总监说。
在他看来,现阶段机器在听觉方面照旧很“愚笨”,这意味着也有非常大的空间和运用场景,可以用AI去做相关的语音信号处理工作。
“如今机器视觉范畴的技术曾经很聪明了,不过都次要运用在门禁、刷脸支付等场景,相对都是B端范畴,但只需C端市场不迸发,机器视觉技术就很难完成井喷迸发。”战略总监解释,相比之下,当下的耳机等消费电子产品的火热,也给人与机器听觉的交互提供了更多的机会。
“假如AI技术可以改变人与机器在语音交互方面的功能,这不只能推进机器听觉技术的成熟落地,也能更快地市场发展带来更大的经济效益。”他说。
结语:机器听觉范畴发展仍道阻路长
在智东西与大象声科战略总监的深化交流中,我们也看到一幅描画着AI语音技术创新落地的商业蓝图,正在我们面前冉冉铺开。
虽然与机器视觉技术相比,机器听觉技术仍显得较为年轻,但在其大量的细分赛道之下,许多玩家争相入局,各类AI语音处理方案百花齐放,也为机器听觉技术的发展注入了源源不断的生命力。
置信在将来,这条技术长河中的每位玩家都能找到属于本人的地位,共同推进机器听觉范畴的运用迸发、技术繁荣与发展。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
发表新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
zzz861025
高级会员
0
关注
0
粉丝
94
帖子
Ta的主页
发布
加好友
最近发表
2023年全球智能可穿戴腕带出货量及竞争格局分析
智能穿戴概念8日主力净流出24.84亿元,光启技术、立讯精密居前
智能穿戴概念11日主力净流入5.62亿元,三六零、兆易创新居前
智能穿戴概念10日主力净流出23.94亿元,立讯精密、中兴通讯居前
智能穿戴概念9日主力净流入6998.51万元,水晶光电、九安医疗居前
云天励飞豪掷1.8亿收购智能穿戴IDH方案商,引领行业新潮流
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们