找回密码
 立即注册
搜索

人工智能存在种族性别成见,还有隐私泄露危机......谁才是真正的幕后推手?

科技日报记者 谢开飞 通讯 许晓凤 王忆希

美国麻省理工学院媒体实验室研讨项目显示,人工智能辨认淡色皮肤男性的平均错误率不超过1%,辨认深色皮肤女性的平均错误率达35%……

人脸辨认所导致的成见成绩不断遭到广泛关注。近期,一篇关于图像超分辨率的论文引发了对于产生成见缘由的新争论。

网友应用论文中的开源代码停止了模型推理,在运用时发现,非白人面孔的高糊照片被还原成了一张白人面孔。对此,2018年图灵奖得主、AI领军人物杨立昆(Yann LeCun)在推特上指出,当数据有成见时,机器学习系统就变得有成见。而这一观点,掀起一场争论浪潮。有人说,机器学习系统产生成见不应只归咎于数据集,这种甩锅的做法是不公平的,还有技术、人类观念等缘由。

如今还没有100%无成见的数据集

随着人工智能时代的到来,人脸辨认技术正被越来越广泛地运用在执法、广告及其他范畴。但是,这项技术在辨认性别、肤色等过程中,存在着一定成见。

“在美国,人脸辨认系统中白人男性的辨认率最高,而黑皮肤女性的辨认率则最低;在亚洲国家的人脸辨认系统中黄种人的辨认率相比白种人的辨认率差距就会小一些。”福州大学数学与计算机迷信学院、福建省新媒体行业技术开发基地副主任柯逍博士说。

这次堕入争论中心的人脸辨认成见成绩其实是一个存在很久、热度很高的话题。

早前,美国麻省理工学院媒体实验室主导的一项名为《Gender Shades》的研讨项目在研讨了各个前沿科技公司的面部辨认系统后发现,各系统在辨认男性面脸与淡色面脸方面表现更佳,淡色皮肤男性的平均辨认错误率不超过1%,淡色皮肤女性的平均辨认错误率约为7%,深色皮肤男性的平均辨认错误率约为12%,深色皮肤女性的平均辨认错误率则高达35%。

那么本次争议中,杨立昆指出的数据集成绩是如何产生成见的?有无100%没有成见的数据集?“不平衡的数据,导致了系统在学习时,更好地拟合了比重较大的数据,而对占比小的数据的拟合则表现不佳,这就能够最终导致了成见的产生。”柯逍引见说,如一个常见的人脸辨认数据集LFW,数据集中有近77%的男性,同时超过80%是白人。

“目前,几乎可以一定的是没有100%无成见的数据集。”柯逍举例说,在搜集数据时,可以针对性地让男性与女性数目一样,甚至也可以让各种肤色的数据数目都一样。但是,其中能够大部分人是没有戴眼镜的,这能够就对戴眼镜的人停止辨认时带来了成见。进一步讲,各个年龄段的人脸也很难做到完全分歧,导致最后学习到的模型能够对戴眼镜、年长或年幼的人脸产生成见。所以有时分讨论数据成见的产生,会发现其产生的缘由是思索成绩的角度不同。

出现成见不能只归咎于数据

众多专家也指出,数据能够是机器学习系统中成见的来源,但不是独一的来源。

其实,在本次争议中,杨立昆在推特中曾经很明白地表示,他的本意并不是说成绩都出在数据集上,只是针对这篇论文,其算法在特定场景下,换个数据集就能处理成绩,但并不是说一切的机器学习系统成见都来源于数据集。

那么,谁才是产生成见真正的“幕后推手”?

AI学习过程应该是架构、数据、训练算法等的互相作用。算法包括了特征的选择、损失函数的选择、训练方法的选择以及超参数调理等,其本身的缺陷也是成见产生的一个缘由。

2019年12月,美国国家标准技术研讨院停止的一项研讨发现,在大多数当前评价的人脸辨认算法中,跨人种差异的确存在广泛的准确性偏向。

柯逍引见说,在算法设计的时分,往往会选择L1损失函数或者L2损失函数。若在将一个低分辨率人脸图像还原成高分辨率人脸图像的方法中,运用L2损失函数,得到的大多数人脸图像更像白人;而运用L1损失函数,得到大多数人脸图像更像黑人。这阐明由于损失函数的选择不同,某个群体(黑人或白人)在一定程度上就会受算法的忽视,进而产生成见。

这当中还存在另一种状况,假如数据带有大批的成见,算法系统会将其放大,并变得更具有成见。一项研讨表明,假如初始数据中,下厨与女性的联络概率是66%,将这些数据喂给人工智能后,其预测下厨与女性联络起来的概率会放大到84%。普通来说,机器学习系统会选择最符合通用状况的策略,但是这样会导致一些非典型状况或较为特殊状况被忽略。

除此之外,产生成见的缘由还有相似性的成见。信息推送系统总会向用户引荐他曾经看到、检索过的相关内容。最终的结果是导致流向用户的信息流都是基于现存的观点和看法。“系统会自动协助用户屏蔽与他们意见相左的信息,这就催生了一个信息泡沫,用户看到的都是人工智能让你看到的。这种成见根本上也是数据与算法共同作用产生的。”柯逍说。

“总体而言,成见还是源于规则制定者。”中锐网络人工智能产品总监叶亮说,工程师从头到尾参与了整个系统设计,尤其是机器学习的目的设定。算法就好像一只嗅探犬,当工程师向它展现特定东西的气息后,它才可以愈加精准地找到目的。

算法纠偏工具曾经上岗

近期,国际多家机构相继宣布禁用人脸辨认技术。有色人种被还原成白人的事情,再次掀起了人们对于人工智能系统产生成见的批判浪潮,也再次警醒人们,技术带有成见所带来的潜在危机。

成见能够导致无辜者蒙冤。在2018年夏天,英国媒体就报道过,由于人脸辨认技术的误判,导致一名年轻黑人男性被误以为嫌疑犯,在公众场合被警察搜身。

也有报告显示,一些国外执法机构可以根据AI辨认出的发色、肤色和面部特征对视频中的人物停止检索。这种技术上的成见也在一定程度上放大了人们的成见。

除了对人种与性别的辨认偏向之外,人脸辨认技术还因其在侵犯隐私方面的成绩而惹起担忧。2020年终,美国一家人脸辨认技术公司便遭到了严密的审查,有关部门发现,其面部辨认工具由超过30亿张图像构建而成,但是这些图像大部分都是经过抓取社交媒体网站搜集的,并且已被许多企业广泛运用。

成见存在的同时,一批新兴的算法纠偏工具也涌入了人工智能。

早在2018年,脸书曾发布一个算法模型,表示会在算法因种族、性别、年龄等要素做出不公正判别时发出正告以提示开发者;2019年麻省理工学院就提出了一种纠偏算法,可以经过重新采样来自动消弭数据成见。

那么克制成见还需求人工智能技术做出哪些努力?“开源方法和开源技术都有着极大的潜力改变算法成见。”叶亮指出,开源方法本身非常合适消弭成见程序,开源社区曾经证明它可以开发出强壮的、经得住严酷测试的机器学习工具。假如线上社团、组织和院校可以接受这些开源特质,那么由开源社区停止消弭算法成见的机器设计将会顺利很多。

柯逍以为,可以看出成见基本来源于数据与算法,加强对人工智能所运用的数据、算法以及模型的评价,可以在一定程度上缓解潜在的、可导致成见与歧视的要素。同时,人工智能的成见其实都是人类成见的反映与放大,因此人们放下成见才是最根本的处理方案。

编辑:张爽

审核:王小龙
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册