请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
搜索

99.99%准确率!AI数据训练工具No.1来自中国

萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI
这年头,真是什么样的数据集都有了。

IBM的5亿行代码(bug)数据集、清华&阿里的460万少样本NER数据集、还有假货数据集、“黑话”数据集、小黄图数据集……咳咳。

没错,相比遭遇瓶颈的算法,数据如今成了AI行业的“香饽饽”——

他们发现,当年一个ImageNet走天下,微调AI模型参数就能获得SOTA的时代曾经过去。

来自谷歌AI的最新研讨表明,要想在细分范畴获得更好的模型效果,精准优质的数据非常重要,它在极大程度上决议了AI模型的功能。


99.99%准确率!AI数据训练工具No.1来自中国-1.jpg

例如,谷歌曾经做过一款流感趋向预测模型,但由于数据质量太差,预测结果甚至偏离了流感峰值的140%。

连斯坦福大学副教授、Coursera结合创始人吴恩达,也强调数据质量对于AI的重要性:

80%的数据+20%的模型=更好的AI。

真正“有用”的AI模型,离不开数据

不断以来,数据质量对于AI模型的影响程度都在被低估。

随着大模型如BERT、Alphafold2、GPT-3、DALL·E逐渐成为人工智能产业的潮流,更多的数据也在被“投喂”进各种AI模型中。

数据质量的成绩,也因此愈加突出。

来自谷歌、苹果、斯坦福、哈佛等七家顶级机构的一项研讨表明,越大的言语模型,隐私泄露风险就越

他们用OpenAI的GPT-3模型做了实验,发现只需求一串“暗号”,就能让它报出某个人的姓名、电话、住址等隐私信息


99.99%准确率!AI数据训练工具No.1来自中国-2.jpg

由于AI模型不能完全“消化”数据,只会把训练数据中的一部分原样展现出来,导致模型越大,对数据的记忆才能就越强,泄露隐私、输入虚伪信息片段的能够性就越高。

不少大型AI公司,曾经末尾从根本上处理数据质量成绩。

谷歌就曾经末尾研发数据处理算法,其中的TEKGEN模型,能将数据质量靠谱的知识图谱转换成文本数据库,再用于AI模型的训练。


99.99%准确率!AI数据训练工具No.1来自中国-3.jpg

而IBM、清华大学、阿里达摩院等国内外研讨机构,也末尾建立相似代码bug、假货、少样本NER一样的细分范畴数据集

但这些做法都需求足够的人力和精神,相比之下,外包/众包能够是更多AI企业的选择。但是在这种状况下,又能够获得不合要求、甚至良莠不齐的数据,质量难以保障。

如今,AI训练数据处理行业中迸现出一匹黑马——

一家对AI算法落地有所研讨的AI训练数据服务商,自主研发了一个名为「云测数据标注平台4.0」的数据处理平台,直接将数据标注的最高准确率提升到了99.99%

据云测数据表示,这一平台使得企业服务成本平均降低了60%以上,至于研发AI项目的效率,则提升了2倍不止。

这样的标注效率,并非有口无据。在4.0正式版上线前,「云测数据标注平台」不断是云测数据外部自用的AI训练数据处理平台。

正是仰仗着这一平台,结合其高精准数据标注才能和场景化训练数据方案等实力,云测数据延续两年在数据标注公司排行榜上夺得TOP 1的地位。


99.99%准确率!AI数据训练工具No.1来自中国-4.jpg

他们的平台,凭什么拿下行业TOP 1?

凭的是三大技术特点:稳、全、快。

首先,对于目前成熟的标注场景,保证AI辅助标注波动不出错。

对于智能数据标注技术来说,目前比较成熟的场景包括OCR(光学字符辨认)语音切割等义务。

以OCR为例,辨认准确率是基本要求,更重要的是文字辨认的效率:


99.99%准确率!AI数据训练工具No.1来自中国-5.jpg

至于ASR(语音辨认)也是基本操作:


99.99%准确率!AI数据训练工具No.1来自中国-6.jpg

当然,假如需求的是TTS(智能转写)方面的数据,将一段话迅速转成拼音也非常easy:


99.99%准确率!AI数据训练工具No.1来自中国-7.jpg

其次,平台的效率不只体如今辨认速度和准确率上。

「云测数据标注平台4.0」另一个重要的特性,体如今它的场景片面性上——既能做2D边界框这种最简单的标注,也能做业内公认非常难的多端数据交融。

图像、文本、语音、音视频……只要你想不到,没有平台做不到的数据类型。

先以进阶一点的NLP实体抽取为例。

这项技术的难点在于,必须迅速找出一段长文本中最有用的关键信息,过程中不只触及大量学术名词,而且分类的合感性也必须思索。

在这种状况下,「云测数据标注平台4.0」对于医疗专业的学术名词也能轻松处理,且能准确地按照数据要求停止分类:


99.99%准确率!AI数据训练工具No.1来自中国-8.jpg

更重要的是,这一平台也能做行业公认较难的一项技术——多端数据交融

这项技术包括多模态交融和多传感器交融两种类型,每种类型对于交融算法的要求都非常高。

以这项技术目前运用最广泛的自动驾驶范畴来看,多传感器交融不只要将多个传感器如激光雷达的数据停止交融,使得系统获取比单一传感器数据更多的信息,还得确保这一过程的准确率。

例如,一个简单的框就能将车辆的3D激光点云数据自动辨认出来,更重要的是还能做智能贴合


99.99%准确率!AI数据训练工具No.1来自中国-9.jpg

除此之外,在这些数据中,还触及语音、图像、文本等多种模态信息的交融,即便只是图像信息,也触及2D和3D数据的交融。

而在完成了传感器和多模态交融后,也还需求面临由于传感器硬件更迭,导致数据类型更新的成绩,因此在工程完成时,可扩展性也是思索要素之一。

最后,也是最重要的,就是对数据标注效率的提升了。

不同的AI模型,所用的数据类型并不一样,因此在获取AI训练数据时,也必须相应地调整标注方式,但是有些方法由于标注效率很低,从而导致成本的提升。


99.99%准确率!AI数据训练工具No.1来自中国-10.jpg

以图像分割为例,这项技术目前主流的标注方法有两种:多边形分割、像素级标注。

其中,多边形分割是一个成本宏大的标注方式,操作者必须像用PS里的“钢笔”一样,一点点地描出目的物体的边缘外形,将它与背景分割开来。

假如采用智能多边形分割的话,往往会出现细节却需求反复调整的状况,甚至比人工描边还慢(以某开源平台的智能标注效果为例)


99.99%准确率!AI数据训练工具No.1来自中国-11.jpg

相比之下,目前比较先进的标注方法像素级标注,以2D边界框的简单操作就能迅速标注出物体的外形,准确率比多边形分割要高得多:


99.99%准确率!AI数据训练工具No.1来自中国-12.jpg

但是,并非一切AI图像分割模型都采用像素级标注的数据训练。

这就导致在AI模型要求多边形分割数据时,会出现标注成本极高的状况。

为此,「云测数据标注平台4.0」背后的程序员们,对多边形分割停止了优化:以像素级标注的简单操作,也能标注出多边形分割的效果,极大地加快了不同类型数据标注的效率。

或许有的人还对数据标注行业有所误读。但「云测数据标注平台」曾经用实力证明,做出精准高质量的数据,异样是一个技术活。

如今,这一平台的4.0正式版,曾经对外商业化运用。

云测数据,行业中的“数据迷信家”

自人工智能迸发以来,「云测数据标注平台」已有近5年的沉淀。

2017年,正值AI技术迸发一年不足,各行业对于数据处理的需求只增不减,随着AI模型变得越来越多样化,更多元的数据需求也在被提出。

云测数据能走到如今行业数据质量TOP 1的地位,客户触及智能驾驶、智慧金融、智慧城市到智能家居等多个行业,涵盖计算机视觉、语音辨认、自然言语处理、知识图谱等AI主流技术范畴,所做的远不止把控AI训练数据的准确率。


99.99%准确率!AI数据训练工具No.1来自中国-13.jpg

数据标注,只是控制AI训练数据质量中的一环。

理想上,从AI企业提出对应需求的那一刻起,云测数据就末尾对质量停止把控了。

接到需求后,云测数据采集团队需求根据客户所用的AI算法模型,对所采集的数据停止评价梳理,确定贴合模型训练的数据采集需求,经过行业首创的数据场景实验室停止相应的采集。

同时,在数据采集阶段,云测数据团队就会先对采集的数据停止审核清洗。

这一步非常关键,许多未经审核清洗就用作标注的数据,能够包含有不合适用作模型训练的隐私数据、或低质量数据。

对于隐私数据,需求适当对数据停止脱敏化处理;至于低质量数据,则需求对数据停止清洗,确保这批数据合适标注。

至于数据标注和质检的过程也可谓严苛,云测数据设计了从创建义务、分配义务、标注流转、到质检/抽检环节和最后的验收等更完善的管理流程,每个环节有相应专业人员来把控数据标注的质量和工夫节点,得以在保证质量的前提现下可以真正提高效率。


99.99%准确率!AI数据训练工具No.1来自中国-14.jpg

这意味着,即便AI企业只提供一个模糊需求,云测数据也能经过从采集到标注的一整套流程,将可以直接运用的AI训练数据呈现给企业。

因此,要想从根本上控制数据质量,即便是数据行业也得掌握AI算法工程师的技术:

只要了解AI算法的原理,才能明白最合适模型的数据条件和类型,最终交付合适的AI训练数据。

这几年工夫里,云测数据其实遇见过不少以“一篇AI论文”为需求的数据处理客户。

尤其是在AI技术迸发初期,许多企业对AI算法有一定了解,但并不清楚应该怎样处理数据,也没有任何可以用于AI模型训练的数据资源。

而且随着自动驾驶、金融、医疗等专业范畴末尾用上更复杂的AI算法,数据质量末尾成为“重点关注对象”,任何一个错误的数据,都能够降低模型的准确率。

一日千里的AI算法、和愈加复杂的场景,让一路走过来的云测数据,磨炼出了如今的「云测数据标注平台4.0」,不只数据类型片面,而且数据质量高。

接上去,他们还希望能将这个平台进一步智能化,以迎接接上去的行业应战。

云测数据总经理贾宇航表示,这或许最终会演化成一场“质量与效率上的博弈”:

最近,自动驾驶行业很火,我们需求处理的数据也呈现出一个数量级的增长。例如,去年一家企业只需求采集10辆RoboTaxi的数据,往年就添加到了百千辆RoboTaxi。

但我们希望,在保证数据质量不变的状况下,数据处理成本不会呈线性增长,而是应用智能化平台,让数据处理的成本更合理、效率更高。

云测数据的真实身份,其实是AI训练数据行业中的“数据迷信家”:

他们的目的,是让AI行业能真正完成数据驱动

— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一工夫获知前沿科技动态
回复

使用道具 举报

大神点评4

几乎胡扯,根本没做到,不知道给了你们多少五分
回复

使用道具 举报

无语8了 2021-6-9 07:29:29 显示全部楼层
回个帖子,下班咯~
回复

使用道具 举报

李狗蛋01 2021-6-9 21:03:55 显示全部楼层
加油!不要理那些键盘侠!
回复

使用道具 举报

……
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册