智客公社

标题: 清华大学张长水教授：机器学习和图像辨认（附PPT下载） [打印本页]

作者: 人间无古 时间: 2020-8-28 18:39
标题: 清华大学张长水教授：机器学习和图像辨认（附PPT下载）

[attach]441844[/attach]

本篇干货整理自清华大学自动化系教授张长水于2018年4月27日在清华大学数据迷信研讨院第二届“大数据在清华”高峰论坛主论坛所做的题为《机器学习和图像辨认》的演讲。

注：头条号私信后台回复关键词“0427”，下载残缺版PPT。

张长水：大家好，我来自清华大学自动化系，次要做机器学习和图像辨认的研讨。如古人工智能很盛行，机器学习也推到风口浪尖上，图像辨认曾经变成产品，旧事媒体告诉我们AlphaGo、AlphaGozero曾经打败了人类、皮肤癌的辨认超过了大夫、无人车曾经上路测试，很快要量产。这些旧事仿佛告诉我们，图像辨认的成绩曾经处理了，但是很多高科技做图像辨认公司都还在高薪聘用掌握机器学习的人才。图像辨认成绩处理了吗？我们看看如今图像辨认还有些什么成绩。

[attach]441845[/attach]

[attach]441846[/attach]

一、大量数据

如今做图像辨认，要求有大量的数据。什么叫大量的数据？比如上图是在业界做图像辨认的数据集，包含很多类别的图像，像飞机、鸟、猫、鹿、狗。对于一个物体，需求有不同的表现，需求有不同的外观在不同的环境下的表现，所以我们需求很多照片素材。

虽然在我们范畴里有很多大的数据集，但其实这些数据集远远不能满足我们的适用产品的要求。比如说我们看这样一个文字辨认的例子。文字辨认比普通的图像辨认要简单，由于文字不触及到三维，它只是一个平面的东西。

[attach]441847[/attach]

二、大量的样本

比如我们要辨认清华大学的“清”，通常的做法是搜集“清”的各种各样的图像，所谓各种各样的图像就是说要包括不同的字体，不同的光照，不同的背景噪声，不同的倾斜等，要想把“清”字辨认好，就需求搜集上很多这样的样本。那么这么做得困难是什么？

三、困难

[attach]441848[/attach]

1、样本的获取

当我们运用于实践、设计产品的时分，就会发现不是每一种状况下都有那么多数据。所以，怎样获得丰富的数据是首要的成绩。

[attach]441849[/attach]

上图给大家展现的这一排图像是一个交通标志的辨认义务。我们假如需求去辨认路上的交通标志，就要在不同的环境下，不同的光照下，比如说早晨、半夜、早晨，逆光还是背光，不同的视角，能否有遮挡，一切的要素都要思索到，来采集数据。阅历上每种标识搜集上千张或者更多的图像，才能保证辨认率到达实践运用的程度。

我们的成绩是什么？看第一张图像。第一张图是有延续急转的标志。这样的标志在城市很难见到，除非到山区。这个例子阐明，图像获取本身就不容易。

2、样本的标注

[attach]441850[/attach]

我们如今的图像辨认方法是基于标注的数据的，这叫做监督学习。图像标注就意味着把图像一张一张抠出来。假如我们开车穿越在北京市大街小巷，但是交通标志并不是在视频的每一张图片上出现。假如我们需求把视频中交通标志假如都要标出来，需求花很多钱。做机器学习的人会关怀我们能不能经过一些其他更廉价的方法去做数据标注，例如能不能经过一些众包的方式去做。在12306网站购买火车票，每次让我们勾出相对应的图像，这可以看做是在标注数据。但是众包标注数据也存在一些成绩，就是每个人标的时分会不一样，有时会有错误。所以在机器学习中，有人关怀在众包状况下、标注数据有错的时分，我们如何设计学习算法，使得它对错误的标注不敏感。这个事大概七八年前就末尾研讨，不断的有新的文章出现。

[attach]441851[/attach]

当数据没有那么多的时分，怎样办？机器学习界遇到了这样的成绩，就是小样本的数据学习。当样本不多的时分能不能达到和大数据量相似的辨认效果？例如上图中只要几张狗的图片的时分，要辨认狗，还能从哪里得到狗的信息？思绪是从其他的图片中来，比如上边有有鸟，有猫，有鹿，它们的皮毛很像狗等等。换句话说，他从其他的丰富的图像中获取一些信息，把那些信息迁移到这个大批的数据上，从而可以完成对狗的辨认。

[attach]441852[/attach]

另外，图片数量能否能降到只要一张？比如清华大学的“清”，只要一个模板图像，能否可以把文字辨认做好。更极端的例子，能不能做到一个样本都没有，也就是说，机器在没有见过狗的状况下，能否能把狗辨认出来，这都是研讨人员关怀的事情。

3、大数据量的训练

有了很多的数据还需求对它停止训练，这通常需求花很长工夫，需求装备高端的设备去训练。

[attach]441853[/attach]

我们有了大量的数据怎样去做训练？可以采用GPU去做训练，这样可以达到特别快的速度。在这大的数据量上停止训练和学习的成绩，叫做big learning。

Big learning 关怀能否有更疾速的方法训练呢，需求一个月才能训练出来的成绩，能不能在一天就训练出来；能不能用并行训练？假如数据不能一次存到硬盘里，这个时分怎样学习呢？这些就是企业和机器学习界都关怀的事。

[attach]441854[/attach]

除此之外，我们发现深度学习模型很容易被攻击。如上图左边是一只熊猫，我们曾经训练好网络可以辨认出这是一只熊猫。假如我在这张图像上加了一点点噪声，这个噪声在右图你几乎看不出来，我再把这个叠加后的图像给网络，它辨认出来的不是熊猫，是别的东西。而且它以99.3%的决计说这不是熊猫，甚至你可以指定他是任何一个东西。这件事情的风险在什么地方？假如只是文娱一下，也没什么大关系。但是假如把它用于军事或者金融后果就比较严重了。因此我们不断在关怀这个成绩怎样处理，就是希望算法可以抗攻击性强一点，但目前只是缓解而没有彻底处理。

而且研讨中会发现这个成绩，相当于去研讨分类器的泛化功能。泛化功能这件事在机器学习里是实际性很强的成绩，是机器学习圈子外面非常少的一些人做的事情。换句话说，这个成绩看起来很运用，其实它触及了背后的一些很深实际。为什么会出现这样的状况？由于我们对深度学习这件事没有太好的实际去解释它，我们没有那么好的方法去把一切的成绩处理。

[attach]441855[/attach]

我们再说风险，图像辨认中我们会把一个学习成绩往往方式化一个优化成绩，然后去优化这个函数，使这个函数最小。我们把这个函数叫做目的函数。有的时分我们会把这样的函数叫做损失函数，物体辨认有错就带来损失。就是说在整个过程我们希望不要有太多的损失。其实，风险函数能够是更合适的词。由于你辨认错了，其实是有风险的。普通来说目的函数对应于错误率，把狗辨认成猫错了一张，把猫辨认成狗又错了一张，都影响错误率，而错误率足以反映算法的功能。

[attach]441856[/attach]

但是在不同的成绩里，辨认错误的风险是不一样的。比如我们做一个医学上的诊断，本来是正常人，你判别说他有癌症，这种错误就导致虚惊一场。还有一种状况是他患有恶性肿瘤，算法没有辨认出来而导致了延误治疗。这样的错误风险就很大。因此我们在优化的时分，这个目的函数其实是应该把这样的决策错误和风险放到外面去，我的目的是优化这个风险。但是这件事往往是和运用、和我们的产品设计相关。所以不同的产品设计，它的决策风险不一样。所以我们在设计产品的时分，是要思索。

[attach]441857[/attach]

苹果宣称他们的人脸辨认错误率是百万分之一，假如别人来冒充你去用这个手机是百万分之一的能够性，就是说，别人冒充你是很难的；但是人脸辨认还有一种错误，就是：我本人用我的手机，没有辨认出是我，这个错误率是10%。换句话说，你用十次就会有一次不过。在用手机这个成绩上不分明，但是假如用于金融，这个事就有风险。我们设计产品的时分，你就要思索风险在哪，我们怎样样使得整个风险最小，而不是只思索其中一边的错误率。

[attach]441858[/attach]

有公司会宣传说错误率可以降到百万分之一，让人误以为人脸辨认的成绩曾经处理了，但是我们在CAPR、ICCA这样的学术会议上照旧能看到怎样去做文字的检测，怎样去做人脸辨认的研讨。换句话说这件事还没有到那么容易运用的地步。所以我们做图像辨认的产品有风险，产品设计要思索风险，我们做这件事就要思索用技术的时分，用对地方很重要，用错地方就会很大的风险。

机器学习是一个和运用严密结合的学科，虽然有很多高大上的公式，其实都是面向运用，希望能处理实践成绩。实践运用给我们提出很多需求，图像辨认遇到的成绩给我们提出了应战。最后，感激各位的倾听。

注：头条号私信后台回复关键词“0427”，下载残缺版PPT。

作者: 雪碧可乐冰柠檬 时间: 2020-8-28 18:44
0427

作者: 嘟嘟之家 时间: 2020-8-28 18:47
0427

作者: 悟天天 时间: 2020-8-28 18:47
0427

作者: 启和户外 时间: 2020-8-28 18:56
一看就是清华ppt模板网络中心讲大课都是这个

作者: hyby999999 时间: 2020-8-28 19:04
感觉都是些东拼西凑的东西，而且和目前最前沿有差距。

作者: dirkyoyo 时间: 2020-8-28 19:07
西安交大郑南宁院士的ppt看看也不过清华教授就出来收缩了？

作者: 墨遥夜 时间: 2020-8-28 19:08
教师你好。我是一个数据标注工作室的担任人。工作室成立半年，阅历丰富。可不可以推荐一下你们的数据标注业务。真诚感激(❁´ω`❁)

作者: 牵猪溜天涯 时间: 2020-8-28 19:13
0427

作者: _过路人passer 时间: 2020-8-28 19:23
张教授很务虚，收藏了。

作者: 喺歡Iしov妳 时间: 2020-8-28 19:29
机械学习和图像辨认应该注重

作者: 白云灌 时间: 2020-8-28 19:41
别人说的是私信后台回复，怎样都在这里回复呢？就这态度还学习呢？[捂脸]

作者: 飞而复来号 时间: 2020-8-28 19:43
张教授是严谨务虚的教授[赞][赞][赞]

作者: 6719969 时间: 2020-8-28 19:53
0472

作者: rainx2 时间: 2020-8-28 20:00
没错。严厉限制运用场景。ai才可以发挥效果。假如条件变化了。ai很容易犯低级错误。

作者: uf_9g-0fvfd 时间: 2020-8-28 20:06
实践运用中要面对很多小概率的事情，由于人的不确定性

作者: 白羊Sure147 时间: 2020-8-28 20:14
传统是经典，不是过时

作者: 疯狂的小米 时间: 2020-8-28 20:18
04270427

作者: william77 时间: 2020-8-28 20:24
0427

作者: 思考的油脚丫 时间: 2020-8-28 20:29
8427

作者: 不至于台 时间: 2020-8-28 20:37
0427

作者: lovage殁 时间: 2020-8-29 14:36
有点兴趣，要有详细介绍就好啦。

作者: 冇地给 时间: 2020-8-30 15:28
支持支持再支持

作者: 土豆看火影 时间: 2020-8-31 12:56
结束了嘛？有种还没完成的感觉，嘻嘻

欢迎光临智客公社 (http://bbs.cnaiplus.com/)