数据中毒防不胜防，别让你的机器学习模型“学坏”

MY_细碎年华 · 2021-6-17 13:09:25

来源：计算机世界

数据中毒会导致机器学习模型失准，从而得出错误的结论。由于目前缺乏简单易行的处理办法，因此安全专家必须重点关注数据中毒的检测和预防。

过去的十年中，云计算的普及为广大企业提供了高功能的运算与数据存储服务。受益于此，机器学习的运用也迎来了迸发式的增长。随着下游供应商将机器学习整合进他们的产品当中，这些机器学习的运算结果也成为了用户做决策的重要根据。对此，安全专家正告称，针对机器学习技术破绽停止的网络攻击将会大量出现。

大多数网络社交平台、在线视频网站、大型购物网站、搜索引擎等服务都有基于机器学习技术的引荐系统。比如网飞用户爱看的电影和表演，脸书用户点赞或分享的内容，推特用户点赞或标注的内容，消费者在亚马逊购物网站上购买或阅读过的商品以及网友经过谷歌搜索查询过的信息，这些数据全都反馈给了这些公司的机器学习系统，从而可以愈加准确地给用户推送合适其口味的信息。

网络攻击者试图影响这些引荐系统并使其结果发生偏向，这早已不是什么旧事了。他们会用虚伪的账户给某些特定的产品投赞成或反对票，并停止分享和推行。用户甚至可以在地下市场或者“巨魔农场”（注：专门在网络上散播不实言论或发表怂恿性回复的网络组织）购买到这种操纵引荐系统的服务。

网络安全供应商F-Secure人工智能杰出中心的研讨员Andrew Patel表示，“实际上，假如攻击者了解某个用户与系统交互的方式，他就可以设计一个专门针对该用户的网络攻击，向其引荐油管视频、推送恶意软件或者诱导其关注冒充的社交账户等。因此，操纵算法可用于多种目的，包括提供虚伪信息、网络钓鱼诈骗、改变公众言论、宣传有害内容以及损害品牌或个人声誉等。你甚至花钱就可以操纵谷歌搜索的键入自动填充功能。”

什么是数据中毒

导致数据中毒或模型中毒类型的网络攻击会污染机器学习模型的训练数据。由于篡改训练数据会妨碍模型做出准确的预测，所以通常以为数据中毒属于残缺性攻击。其他的网络攻击根据其影响可以归类为以下三种：

机密性攻击：攻击者经过向模型输入数据来推断训练数据中潜在的机密信息。

有效性攻击：攻击者对其输入的数据停止假装来诈骗系统，逃避正确的归类。

复制性攻击：攻击者反向还原模型以对其停止复制或者本地分析，并策划攻击或完成本身的经济希图。

想要区分规避模型预测及分类的网络攻击与中毒攻击，次要在于其持续性。发起中毒攻击者的目的是欲使其输入的数据被系统辨以为训练数据。按照模型数据训练周期的长短，两种攻击的时限也有所不同，比如有的中毒攻击要花数周工夫才能完成。

数据中毒可以经过“黑盒”或“白盒”两种方式来完成。“黑盒”是指针对根据用户反馈来更新学习模型的分类系统发动的攻击；“白盒”指攻击者经过获取学习模型和其训练数据的访问权限（假如系统有多个数据源，那么破绽往往出如今供应链）发起的攻击。

数据中毒攻击案例

Patel引见，从网络安全角度来看，攻击对象能够是运用机器学习来检测网络异常和可疑活动的系统。假如攻击者得知系统中运用了某种机器学习模型，那么他们就会尝试在模型中输入数据，这些数据会逐渐降低辨认的准确性，最终他们的攻击将不会被系统辨以为异常。这也称作模型偏斜。

一个真实案例来自对电子邮件服务运用的渣滓邮件过滤器的攻击。谷歌反滥用研讨团队担任人Elie Bursztein在2018年一篇关于攻击机器学习的博客中表示：“理想中，我们常常发现一些顶尖的渣滓虫团队试图毁坏Gmail的邮件过滤器，大量的渣滓邮件在他们的影响之下未被辨认。在2017年11月到2018年年终，我们至少遭到过四次试图歪曲我们的分类器的大规模恶意攻击。”

另一个例子触及到谷歌的VirusTotal病毒扫描服务，很多杀毒软件都用这项服务扩大本人的病毒库。大家都已清楚，攻击者在真正末尾传播之前会用VirusTotal来测试他们的恶意软件从而逃避检测，而如今他们还会应用VirusTotal停止更持久的数据中毒攻击。实践上2015年就有报道称，经过VirusTotal停止的自动样本中毒攻击导致杀毒软件误将正常文件辨以为恶意程序。

目前尚无处理良策

数据中毒最大的成绩在于其修复非常困难。根据用途和运用者偏好，机器学习模型每隔一段工夫会运用新搜集的数据重新训练。由于数据中毒是长期累积的，且通常跨越多个训练周期，想要确定模型预测的准确性什么时分末尾发生偏向是非常困难的。

Patel表示，要想恢复数据中毒产生的影响，就需求耗费大量工夫分析受影响部分的历史输入记录，对一切不良数据样本加以辨认并删除。在这之后，还要对受攻击前的版本的机器学习模型停止再培训。但是，理想中在面对海量数据处理和大量网络攻击的状况下，经过这种方式停止再培训根本不可行，导致模型无法修复。

微软“可信任机器学习”部门首席架构师Hyrum Anderson谈到：“学术界如今有一种全新的概念很吸引人，虽然还无法实践运用，但那是迟早的事，就是所谓的机器反向学习。为GPT-3（OpenAI开发的一种言语预测模型）模型做一次数据训练需求花费1600万美元左右。假如数据是在中毒之后被辨认，那么找到中毒数据并且重新训练的成本是非常昂贵的。但是假如可以反向学习，比如说要求系统撤销某些数据的影响、去除它们的权重，那样建立防御机制要便宜得多。但是，我以为机器反向学习间隔实践运用至少还有数年工夫，所以目前的处理办法还是用有效数据对模型停止再培训，虽然该方式难度极高且花费极大。”

重点在于检测和预防

既然修复中毒模型难度极大，模型开发者必须花大功夫研讨可以阻止中毒攻击或者可以在下次训练周期之前检测出恶意数据输入的工具。这些工具包括输入有效性检查、速率限制、回归测试、人工审核以及用各种统计学原理检测数据异常的技术等。

比如说，假如大量数据来自于异样的多数几个账户、IP地址或者用户，那么这些数据不应在机器学习模型的训练数据中占较大比例，应对训练数据接受单个特定用户提供的数据量以及所占权重加以限制。经过“暗启动”（向一小部分用户提早发布新功能），可以将新完成数据训练的分类器与以前的停止比较，分析输入有何不同。谷歌的Bursztein还建议构建一个“黄金数据库”，任何重新训练的模型都要对其做出准确预测，从而协助检测系统退化。

Anderson表示，数据中毒只是系统中更为广泛的成绩中的一种特例，归属于数据漂移。每个人都会由于各种缘由获取坏数据，如今也有很多人在研讨数据漂移的对策以及检测运转数据和模型功能出现严重变化的工具，包括大型云计算供应商在内。包含此类功能的服务有Azure Monitor（微软Azure的一项残缺堆栈监视服务）和Amazon SageMaker（亚马逊的一项机器学习托管服务）。

Anderson还说：“假如模型功能在训练后分明下降，不管是由于遭到中毒攻击还是仅仅收到一批不良的数据所导致，系统都可以检测得到。假如要处理此成绩，就要彻底肃清形成影响的中毒攻击或者在模型训练中有意进入系统的不良数据。因此，相似的工具在处理中毒攻击成绩上是很好的末尾，这种AI风险管理框架曾经逐渐在业界内构成规模。”

攻击者要停止中毒攻击异样需求获取模型运转方式的信息，所以尽能够少地泄露信息、为训练数据和模型本身提供强有力的访问权限管理至关重要。从这个角度来看，机器学习防御与系统和数据的安全性和规范操作严密相连，例如权限控制、启用日志记录、启用文件和数据版本控制等。

Anderson表示，人工智能和机器学习模型的安全性大多与最基本的数据读写权限和模型、系统、服务器的访问权限有关。在这种状况下，一些常规目录下拥有高答应权限的小型数据服务或文件则容易导致中毒攻击。

防备工作任重道远

正如企业会对其网络和系统停止常规的浸透检查来发现薄弱环节，此类检查应该扩大到机器学习环节当中，并将机器学习视为大型系统或程序安全的一部分。

Patel说：“开发者在构建模型时应该对模型本身停止模拟攻击，从而了解怎样才能对模型发动攻击，进而尝试构筑可以抵御这些攻击的防御措施。检测结果取决于模拟攻击的数据，所以在对模型实施攻击时可以观测数据点有何特征，然后再建立相应机制，将与中毒攻击相似的数据点丢弃。”

Anderson正在积极参与微软的机器学习模型防御工作。他在最近的一次USENIX Enigma会议上的演讲中展现了他的团队在微软所做的一种模拟攻击尝试。他们设法对一个资源供应服务运用的机器学习模型停止了逆向工程，这个模型可以保障虚拟资源有效分配并映射到硬件当中。

在无法直接访问此模型的状况下，Anderson的团队获取了足够多的关于模型如何搜集数据的信息，从而创建了一个本地的复制模型，并对该模型发起躲避性攻击，且未被系统实时检测到。这样一来，他们得以确定在一天中的什么时分、在哪些区域，以及以什么样的虚拟机器、数据库、大小和复制因子的组合来向实践的系统发起央求，可以大概率确定机器学习模型向他们央求的提供高可用性服务的物理主机过度配置资源。

对于这些超额配置的资源，团队应用一个占用很多CPU和内存资源的负载发起了“吵闹邻居”攻击（一种垄断带宽、磁盘和CPU等资源的云计算架构），对托管在同一个硬件上的高可用性服务形成了回绝服务攻击。Anderson总结到：“这次攻击与IT系统出现的恶意攻击惊人的相似。它们都具有反浸透、躲避监控和执行环节，最终影响服务的可用性。”

本文来自【计算机世界】，仅代表作者观点。全国党媒信息公共平台提供信息发布及传播服务。

kaiteandefish · 2021-6-17 13:14:04

分享了

章紫枫 · 2021-6-18 10:39:11

加油！不要理那些键盘侠！

yeederjon · 2021-6-19 12:09:24

撸过

aqwyhnb · 2021-6-20 08:23:13

我了个去，顶了

		自动登录	找回密码
密码			立即注册

数据中毒防不胜防，别让你的机器学习模型“学坏”

本帖子中包含更多资源

大神点评4

最近发表

公社版块

关注我们