详解Facebook全新图像辨认系统：无需依赖标记的自在搜索

0火星来的0 · 2020-7-5 07:23:50

选自Facebook

机器之心编译

参与：李泽南、杜夏德

Facebook 不断努力于让用户可以轻松搜索社交网络上的图片和视频内容，而无需依托手动打上的标签。昨天，该公司的运用机器学习团队担任人 Joaquin Quiñonero Candela 宣布这一梦想终于得以完成，新的计算机视觉平台将从两个方面改善社交网络上的用户体验：基于图片本身（而不是图片标签和拍照工夫）的搜索；晋级的自动图片描画系统（可向视觉妨碍者描画图片内容）。

回想一下你在社交网络中发的上条信息，内容很能够是一张照片或一个视频。但是，直到最近，在线搜索还不断是文本驱动的技术，即便你搜索的是图片。一张图片能否可以被找到还得依赖描画充分的标签或恰当的图注。

技术正在改变，我们曾经将计算机视觉推向了下一个阶段，了解像素级别的图像内容。这有助于我们的系统做一些相似于辨认图像内容、场景，外面能否包含著名地标的事情。这反过来也会协助我们为视力受损的人更好地描画图片，以及为图像和视频搜索提供更好的结果。

建立「AI 工厂」

为了将人工智能归入到 Facebook 工程中来，我们首先需求一个能让我们的工程师大规模应用的通用目的平台。这个平台叫 FBLearner Flow，设计这个系统是为了让打造机器学习流程的工程师不需求再担心硬件限制或由于实时流量而形成的服务质量成绩。目前我们每个月要在 FBLearner Flow 上做 120 万次人工智能实验，次数要比一年之前多 6 倍。

这个平台运用的越来越广，我们正在其之上不断探求。从工具到机器学习的自动化过程，再到公用的内容了解引擎，我们曾经建立了一个活跃的生态系统，让工程师编写能多机并行的训练工作流，因此任何一家公司的任何一位工程师都能运用它。

计算机视觉平台

FBLearner Flow 平台启动后作为 Facebook AI Research 的一个小研讨项目，当它达到能投入消费的规模时，该平台和团队转移到了 Applied Machine Learning 团队。它如今是 Facebook 计算机视觉团队的引擎。

建立在 FBLearner Flow 之上的 Lumos，是我们为图像和视频了解打造的平台。Facebook 的工程师们无需为运用 Lumos 训练或布置一个新模型而去参加深度学习或计算机视觉的训练。经过我们给它的新的标签数据，以及从我们团队本人建立的运用中来的经过注释的数据，Lumos 平台不断在改善。

深度学习的停顿曾经让我们在图像分类上做出了宏大的提升——像「图像中是什么」和「物体在哪里？」这样的成绩，系统的回答曾经比以前准确很多了。我们设计出了能检测并分割给定图像中对象的技术，推进了这个方向上的研讨。

当这些技术被运用到 Facebook 中时，照片就可以经过一个能分割图像并辨认其中物体和场景的深度学习引擎，并给这张照片附上更多的意义。这就为我们提供了一个丰富的数据集，Facebook 的任何产品或服务都可以运用。数十个团队曾经在 Lumos 上训练和部署了 200 多个视觉模型，他们的目的包括检测敏感内容，过滤渣滓邮件以及自动图像描画。它的运用的范围广泛，从我们的 Connectivity Labs 到搜索团队到 Accessibility 团队都在运用。

用言语描画一切

我们目前正在将这个图像了解成果运用到为照片提升自动转换文本（automatic alt text，AAT），一种能为视觉受损的人描画照片内容的技术。直到最近，这些描画还智描画照片中的物体。明天我们宣布，我们添加了一组 12 个动作，所以图像描画将会包括「人内行走」、「人在跳舞」、「人在骑马」、「人在玩乐器」等这样的描画。

AAT 的这次更新包括两个部分，运用 Lumos 可以完成疾速、可晋级的迭代。Facebook 上有相当比例的共享照片都包含了人物，因此，我们专注于提供触及人物的自动描画。该人工智能团队搜集了一个 130,000 张分享在 Facebook 上触及人物的公开照片样本集。人类注释者被要求写一个照片的单行描画，假定为一个视力受损的冤家描画照片。然后，我们应用这些注释建立一个机器学习模型，可以无缝地推断照片中人的举动。该模型被用于 AAT 的下游技术。

Facebook 对于「骑马」概念各图像的评分

Lumos 经过运用一个界面应用之前另一个义务中经过训练的模型中带有标签的样例，允许在该义务上疾速迭代。例如：假如我们正在训练一个「人骑在一匹马上」的分类器，并想要添加包含马（没人骑的马）的图像的样例，我们就能从一个模型中运用一部分有标签的例子来判别一张图片是包含一匹马并对其分类。

相似模型对同一张图的分数对比

Lumos 允许经过检索和聚类的组合来生成训练数据。给定一组标签或搜索项，该平台可以检索婚配这些标签的字幕的公共图像的分数。这些图像随后被语义聚类，以便疾速停止标记。Lumos 用户可以选择注释集群作为其用例的正选或反选例子，在集群级别或单独为集群中的每个图像停止手动标记。这有助于末尾一项分类义务，随后经过迭代训练以获得更高精度/回忆的分类器。

AAT 运用非常重要，由于它可以为 Facebook 的视障用户带来更棒的访问体验，其他运用也能为用户提供一些方便之处，如发现一个新的搜索参数。

更具描画性的照片搜索

经过 Lumos，我们可以为整个社交网络提供视觉搜索功能。假如你在回想本人的美妙记忆，你很难指出详细的事情，更不用说拍摄的人了。而经过 Lumos，我们构建了一个全新的搜索系统，它可以应用图了解序大量信息，让你可以轻松地搜索到本人想要的东西。换句话说，假如你搜索「穿黑色衬衫的照片」，系统可以「看到」哪些照片中出现了黑色衬衫，并将相关搜索结果呈如今你的眼前，即便这些图片并没有贴上相应的标签。

Facebook 的自动图像分类器，就像 AAT 的例子中那样——经过图片的内容而不是标签来搜索你本人和冤家圈内的一切照片。

为了确保搜索结果与查询的内容有关，系统必须对照片的内容有很好的了解。因此，开发团队运用了最新的深度学习技术，在数十亿照片中学习特征以了解图片的内容。图片搜索团队次要运用了以下表示方法来让图片能有更好的排序结果：

对象辨认：底层图像辨认模型是一个深度神经网络，具有数百万可学习的参数。它构建在最先进的深度残差网络之上，运用了数千万张带有标记的图片停止了辨认训练。它可以自动辨认大量概念，包括场景（如花园）、物体（如汽车）、动物（如企鹅）、地区和经典（如金门大桥），也包括衣物（如围巾）。

图嵌入：系统同时生成高级语义特征，这是深度神经网络最后几层输入的量化版本。这些信息对于提升搜索结果准确性非常有用。

原始语义特征是高维浮动向量，它运用了大量的存储空间用于索引——尤其是当我们要索引大量照片时。经过应用量化技术，特征被进一步紧缩成数个字节，同时仍保留绝大多数语义。被紧缩的表征被用作照片的紧凑嵌入，并且可以直接用于排序，检索和删除反复内容等义务。

构建这种方式的办法是从图像中提取预测的概念和类别，然后解析搜索查询以链接实体并提取概念，最后运用两组概念之间的相似性函数来确定相关性。

这是一个好的末尾，但开发团队并没有中止运用预测的图像类别：我们更进一步，运用结合嵌入对图像停止查询，分明提高了搜索和回忆精度。

我们把它作为一个多模态学习的排序成绩。此外，我们还运用图像之间的相似性度量来确保图像搜索结果是多样化的。

展望下一步

Lumos 图像分类器的运用还需求大量团队通力协作。虽然目前的发展值得一定，但我们仅仅触及了自动计算机视觉的表面，后面还有更长的路要走。随着计算机视觉模型越来越精细，Facebook 正在不断研讨如何处理视频及其他能让人身临其境的表现方式，Lumos 将协助我们以波动、疾速、可扩展的方式揭开一切这些能够性，它会为将来更为丰富的产品体验铺平道路。

0行云0 · 2020-7-5 12:30:35

传说中的沙发？？？哇卡卡

hywjp · 2020-7-5 20:31:45

有空一起交流一下

我是sam · 2020-7-7 07:21:36

唉？楼主写完了？不打算多写点么？

		自动登录	找回密码
密码			立即注册

详解Facebook全新图像辨认系统：无需依赖标记的自在搜索

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们