请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
搜索

被罗永浩看中后一战成名,小米高通投资!这家AI创企牛在哪?



智东西(公众号:zhidxcom)

作者 | 韦世玮

编辑 | 漠影

夏至将至,和气温一样持续攀升的还有TWS(真无线蓝牙平面声)耳机市场的热度。

据业内机构统计,截至5月12日,往年已有25款品牌TWS耳机推出。仅在刚刚过去的5月,OPPO、vivo、华为、努比亚、小度等玩家也相继推出TWS耳机新品,进一步加剧市场混战。其中,前三位玩家的TWS耳机均支持通话降噪。

与苹果AirPods带火的自动降噪不同,通话降噪次要针对耳机中的麦克风,经过算法使麦克风收音愈加纯粹,而自动降噪次要针对扬声器,算法围绕用户“听”的过程停止处理。

随着通话降噪逐渐成为当下各路玩家PK的次要功能之一,也出现了许多公司竞相押注通话降噪赛道,各类处理方案百花齐放。

成立于2017年2月的大象声科,则是专注AI智能听觉技术赛道上一家颇具特征的企业,次要基于机器听觉AI算法开发智能语音加强和语音交互处理方案。



近期,智东西也无机会与大象声科的核心团队人员交流,在了解他们创业故事、核心技术和发展途径的过程中,我们也看到了当下通话降噪技术范畴的发展现状。

实践上,大象声科的AI通话降噪算法最后被锤子科技创始人罗永浩看中,运用在了坚果手机上,随即一战成名,业务逐渐向智能手机、PC、车载声场控制、智能家居、助听器等多个范畴拓展。同时,他们背后还有小米、高通等企业的投资。

往年4月,大象声科还官宣了一笔超亿元人民币的B轮融资,由兰璞资本领投,佳康科技基金、紫金港资本跟投。这是它成立四年多以来公开的第4笔融资。

下面是我和大象声科战略总监的交流干货:



大象声科公司团队合影

一、硬核创始团队加持,用AI拓展人类听觉感知


“与机器视觉相比,如今机器在听这件事情上并不够智能。”大象声科战略总监谈到,大象声科成立的初衷就是希望经过机器听觉技术,赋予机器像人一样的听力,比如说能处理经典的鸡尾酒会成绩。

何为鸡尾酒会成绩?简单来说,当许多人同在一个场合内说话时,人类能经过留意力集中在某一个人的说话中,而忽略背景的其他说话或噪音,这也是人类听觉系统的神奇之处。

但对机器来说,鸡尾酒会成绩是一个极其大的应战。由于声波的堆叠与互相关扰,让机器很难在信号采集终了后对它们停止有效的分离处理,机器难以像人一样有选择性地去听某一部分声响。

这就是大象声科想应用AI技术处理的成绩,从另一个角度看,就是将AI(人工智能)用于人类听觉感知范围的拓展,“这也是我们创始人们不断希望完成的目的。”战略总监说。

青萍始于微末。实践上,大象声科如今成绩与其创始团队的硬核实力毫不相关。

大象声科董事长兼CEO苗健彰是位80后的延续创业者,拥有西安交大通讯与信息工程学士及加拿大UBC软件工程硕士学位,曾在温哥华RBC及IBM等全球知名企业就职。虽然一路顺风顺水地走来,但苗健彰心底里仍保留着创业成事的梦想。

终于在2014年,苗健彰选择了辞职下海,末尾在温哥华当地创办科技公司。此时适逢AI技术在北美蓬勃发展,他敏锐地发现,在语音前端信号处理的技术链下游环节,存在亟待深化研发的技术难题。换言之,就是存在商业机会。

经过对市场和行业的广泛调研与摸底,苗健彰更坚定了从事语音处理AI技术研发与落地的方向和决计。而他这股创业热忱下对技术创新及运用落地的执着,也打动了时任俄亥俄州立大学终身教授,在语音人工智能范畴处于全球抢先地位的顶级迷信家——汪德亮教授。

于是在2016年,汪教授成功加盟创业团队任首席迷信家,并推荐了其实验室的访问学者——时任内蒙古大学教授的张学良。不断以来,张学良教授在CASA和DNN等技术研讨与落地实施等范畴有深沉造诣,随后他也以CTO的身份成功加盟。

随着两位行业大咖的加盟,并基于创始团队对国内AI市场蓝海的判别与将来蓬勃发展的看好,2017年2月,大象声科在深圳正式注册成立。



从左至右分别为大象声科创始人、CEO苗健彰,大象声科结合创始人、首席迷信家汪德亮,大象声科结合创始人、CTO张学良

目前除了深圳总部外,大象声科在南京、上海、台湾等地均有分部,全体团队规模约70人,核心研发团队占比超60%。

基于学术界知名学者的深沉技术阅历和研讨实际加持,大象声科也开启了机器学习语音赛道的新航线。

二、以AI通话降噪为核心的技术城池


技术是立足之本。在公司成立之初,大象声科就瞄准前端信号处理赛道,率先将深度学习技术运用到语音加强中。

“在此之前,前端信号处理范畴较为传统的主流方案是基于稳态噪声假设下,应用滤波器将噪音信号过滤掉,留下一部分相对明晰的语音信号。”战略总监解释,但这降噪效果非常有限,由于真实场景中存在的非稳态噪音如马路上的噪音、咖啡厅内噪音和地铁中的噪音等是不符合稳态假设的。

而以汪德亮教授的CASA研讨为导向的AI流派,则应用AI将人声与非人声停止区分,从各类复杂的非稳态环境噪音中分离与提取出明晰的人声,从而打破了传统语音信号处理的瓶颈。

在这一过程中,降噪的技术难题从最后的单纯过滤成绩变成了一个分类成绩。也正是基于这一差异化技术途径,大象声科逐渐构筑起了本人的技术壁垒。

算法方面,目前大象声科核心声学算法覆盖智能降噪、回声消弭、混响抑制、语音唤醒、声源定位、波束构成、声纹辨认、DHS深度啸叫抑制等方面,为客户提供一系列面向智能手机、蓝牙耳机、PC、车载、助听器等范畴的智能语音加强和语音交互处理方案。

“我们的底层技术是经过AI去做语音信号处理,而通话降噪是我们技术落地的基础之一。”战略总监告诉智东西,面向不同的细分赛道和声学结构,大象声科还相应发布了一些列语音加强处理方案。

例如,大象声科针对蓝牙耳机推出的Vocplus Headphone处理方案,基于深度学习和计算听觉场景分析实际而研发,可以实时分离人声和背景噪声并提取明晰人声,大大提升用户在地铁、商场、马路等各类噪声环境下的通话体验。目前,该方案还拥有Al单麦、AI双麦、AI三麦和AI单麦骨传交融版本。

“全体来看,得益于汪教授二三十年来的研讨阅历,我们的技术储备非常多。”战略总监提到,包括几年后的技术途径,大象声科都有非常明晰的规划,并较为清楚地看到技术的发展方向,以此不断拓展公司的技术节点与业务规划。



大象声科公司办公区

三、创业之初的关键一役,业务拓展要啃最硬的骨头


虽然拥有一支硬核的创始团队以及不少前沿技术阅历,大象声科在成立之初还是遇到了不少难题,融资就是公司起步的其中一道难关。

2018年1月,当大象声科拿到由紫金港资本、挚金资本及狗尾草智能投资的天使轮融资后,如何推进技术方案落地是摆在他们面前的一大难题。

“当时公司只是几个人组成的小团队,在没有大客户背书的状况下,我们是很难直接被小米、华为等手机大厂商认可的。”战略总监回忆道,因此最后大象声科在寻求技术落地方面屡屡受阻。

对永远有预备的新玩家来说,机会也许会迟到,但从不会出席。恰逢当时的锤子科技正紧锣密鼓地停止新产品研发,“相对而言,老罗是一个喜欢尝试新事物的人。”战略总监说,因此锤子科技也率先尝试将大象声科的Vocplus Telecom智能通话降噪方案用在坚果手机上。

2018年4月,随着大象声科智能通话降噪方案在坚果手机3上量产,也让小米、高通等厂商陆续看到了大象声科的潜力与价值,客户和融资机会随之而来,2018年也成为公司扬帆起航的重要一年。

2018年7月和11月,大象声科相继完成由小米科技和高通风投投资的数千万人民币Pre-A轮融资,以及元禾原点、凯泰资本、猎豹移动、理则股权投资管理投资的A轮融资。

同时在这一年,大象声科的Vocplus Gaming下行方案还成功在努比亚红魔Mars量产,并与高通结合展现了基于高通骁龙855芯片的AI通话降噪方案。



但手机并不是大象声科AI通话降噪技术独一的落地方向,从2019年起,大象声科末尾朝着更广阔的业务边界拓展。同年12月,其Vocplus Headphone方案初次在OPPO Enco Q1无线降噪耳机成功量产,正式打开耳机业务。

紧接着在2020年3月,大象声科正式发布Vocplus PC方案,并成为首个在Intel GNA上运转的第三方语音方案商。这意味着,大象声科的AI语音降噪算法技术再一次得到广泛落地的机会,包括联想、惠普、戴尔等计算机公司,都是其重要的已有或潜在客户。

实践上,2020年对大象声科而言也是一个重要的发展节点。

从6月其单麦克风骨传导AI降噪算法落地散步者TWS耳机,到9月初次打入华为供应链,到年底联想首款搭载其算法的PC在海外正式量产发布,再到2021年终同多家造车新权利深度合作,大象声科一路狂飙突进,AI降噪算法技术完成多点落地开花。

如今,大象声科的“冤家圈”已覆盖高通、英特尔、Arm、恒玄等国内外知名芯片厂商,以及华为、小米、OPPO、vivo、联想、摩托罗拉等品牌企业。



不过,从手机到耳机再拓展至PC,大象声科一步步切入市场的思索逻辑是怎样的呢?

“我们的思绪是要先啃最硬的骨头,但这并不代表我们要死磕。”战略总监谈到,一方面,最难的方向也存在较大的市场空间,对公司发展来说是好事情;另一方面,从较高的难点末尾起步,也能为公司带来更广阔的技术空间。

例如在TWS耳机兴起之初,大象声科以为AI降噪算法落地耳机的其中一个难点在于,AI算法本身的尺寸较大,不只需求经过大量数据训练以构成神经网络,还对算力有较高需求。但耳机的存储空间比手机小得多,意味着它能承载的算法尺寸也更小。

因此,如何将大尺寸算法“裁剪”成能放进耳机中的小尺寸算法,也是一个AI降噪算法落地耳机范畴的一块硬骨头。

正是基于这一思绪,大象声科的业务不断成熟拓展。自成立至今,大象声科Vocplus AI智能语音加强与语音交互算法已赋能近亿台智能终端产品。

四、海外市场是重要业务方向,加速完成人声之间分离


现阶段,智能手机、蓝牙耳机、PC范畴和智能车载仍是大象声科的次要落地方向,“但每一个赛道对我们来说都非常重要。”战略总监谈到,从业务层面看,将来大象声科也会逐渐朝AR/VR、IoT、穿戴设备以及助听器等对人机交互需求高的场景进一步延伸,持续拓展新平台。

不只如此,大象声科还将进一步朝海外市场拓展。“由于我们公司团队本就拥有较为国际化的传统基因。”他解释,同时包括摩托罗拉、联想等在内的国际化品牌客户,也为大象声科的海外业务拓展提供了阅历,这也将是公司接上去的业务发展方向之一。

而在技术层面,大象声科仍将专注于AI智能听觉技术的研发与运用,加速在移动通讯、远程会议、蓝牙耳机、助听器、智能家居及车载声场控制等范畴的算法及公用芯片的研发。



深度学习声响分离技术的流程(图源:IEEE Spectrum)

“我们要把基于AI做语音信号处理这件事情做到极致。”战略总监说。

在他看来,现阶段机器在听觉方面照旧很“愚笨”,这意味着也有非常大的空间和运用场景,可以用AI去做相关的语音信号处理工作。

“如今机器视觉范畴的技术曾经很聪明了,不过都次要运用在门禁、刷脸支付等场景,相对都是B端范畴,但只需C端市场不迸发,机器视觉技术就很难完成井喷迸发。”战略总监解释,相比之下,当下的耳机等消费电子产品的火热,也给人与机器听觉的交互提供了更多的机会。

“假如AI技术可以改变人与机器在语音交互方面的功能,这不只能推进机器听觉技术的成熟落地,也能更快地市场发展带来更大的经济效益。”他说。

结语:机器听觉范畴发展仍道阻路长


在智东西与大象声科战略总监的深化交流中,我们也看到一幅描画着AI语音技术创新落地的商业蓝图,正在我们面前冉冉铺开。

虽然与机器视觉技术相比,机器听觉技术仍显得较为年轻,但在其大量的细分赛道之下,许多玩家争相入局,各类AI语音处理方案百花齐放,也为机器听觉技术的发展注入了源源不断的生命力。

置信在将来,这条技术长河中的每位玩家都能找到属于本人的地位,共同推进机器听觉范畴的运用迸发、技术繁荣与发展。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册