一个无解的数学难题是如何触及机器学习的极限的？数学统治一切

fly珍妮Jenny · 2021-6-15 15:06:54

机器能学习什么？这能够是机器学习实际中最令人兴奋的成绩之一。它触及学科的极限——可学习性。另一方面，延续统假设触及了我们数学知识的极限——不可证明性。
可学习性成绩

让我们从机器学习末尾。为了研讨可学习性成绩，我们需求一个准确的数学框架来分析机器学习。为了这个目的，莱斯利·瓦利安特（Leslie Valiant）在1984年引入了能够近似正确学习模型（probably approximately correct learning ，PAC-learning）。
能够近似正确学习的想法很简单：学习者接收关于某个成绩的大批信息，然后根据这些数据输入一个普通性的假设。例如，学习者可以接收照片和关于这些照片中能否有猫的信息。然后，学习者必须选择一个函数来决议给定的照片中能否包含一只猫。
能够近似正确学习模型的名字来自于这样一个理想，即我们要求学习者选择一个具有高概率的近似正确的函数。总之，假如学习者能够选择一个近似正确的函数，那么这个成绩就是能够近似正确学习的。
延续统假设

康托尔的延续统成绩是什么1878年，数学家康托尔（Georg Cantor）)提出一个成绩：实数的一切子集是与自然数逐一对应，还是与实数逐一对应。这就是所谓的延续统假设。
哥德尔和科恩证明了这个成绩是可从ZFC公理体系（the Zermelo-Fraenkel axioms of set theory）中断定。他们指出，既没有证据证明延续统假设，也没有证据反驳它。延续统假说是不可证明的，它的否定也是不可证明的。
可学习性与延续统假设的关系

这里似乎有两个非常不同的成绩：一个是能够近似正确学习模型成绩，来自于实际计算机迷信，讨论机器能否可以学习某些功能。还有一个延续统成绩问的是能否存在一定规模的无量集合。这两件事有什么关系？
2019年，一组研讨人员在《自然-机器智能》上发表了一篇题为《学习性可以是不可断定的》的文章：

我们描画了不能用数学标准公理证明或反驳可学习性的简单场景。我们的证明是基于一个理想，即延续统假说既不能被证明，也不能被反驳。

他们是怎样表现出来的？研讨人员本·大卫对学习成绩停止了极大的简化。他们称之为估计最大值成绩（EMX），并给出了一个例子：

想象一个被各种各样的用户访问的网站。用X表示该网站一切潜在访问者的集合。该网站的一切者希望在下面发布广告。发布的广告将从给定的广告池中选择。广告池中的每个广告A针对特定的用户群体F(A) ⊆ X。例如，假如A是一个体育广告，则F(A)是体育爱好者的集合。目的是放置一个目的人群访问网站最频繁的广告。应战在于事前不知道哪些访客会来访问这个网站。

这个为你的网站找到最佳广告的简单成绩可以被概括为一个触及集合族和概率分布的数学成绩。给定定义域D上的子集集合F，以及在D上的一个概率分布，在F中找到具有最高概率的集合。真正困难的是我们事前不知道概率分布。
本·大卫和他的同事如何证明特定成绩的“估计最大值（EMX）”可学习性独立于ZFC数学公理？
一种方法是构建集合实际的模型，即能够的数学世界，其中一个成绩是估计最大值可学习的，另一个则不是。但是，这将是非常复杂的。
相反，本·大卫和他的合著者做了许多聪明的数学家以前做过的事，并运用曾经确定的结果。他们应用学习和紧缩之间的联络证明了估计最大值学习成绩的一个非常复杂的实例等同于康托的延续体假设。
假如你能证明一个命题等同于延续统假设，那么理想上，你就证明了你的命题独立于ZFC。很容易看到，假如你的表述是正确的，那么根据等价性，延续统假设一定是正确的。假如你的表述是错误的，那么根据等价性，延续统假设一定是错误的。但是延续体假说在ZFC中既不正确也不错误，所以你的表述也必须是一样的。
数学家可计算机迷信家们发现了一种巧妙的方法，将数学的基础与机器学习的基础联络起来。一切的东西都是互相联络的——可学习性的极限能够取决于我们的数学集论基础。
一个关键的声响

我们应该如何严肃对待这些结果？荷兰数学家和集合实际家K.P.哈特批判性地分析了本·大卫等人的论文。简单地说，哈特的观点是：
学习成绩本质上要求学习者想出一个广义函数。假如这个广义函数足够好，那么我们就说学习者曾经学会了这个成绩。换句话说，这个成绩是可以学习的。
但是，要求一个成绩可以被机器学习是一个进一步的限制。艾伦·图灵用他著名的停机成绩证明了并不是一切的函数都是可计算的。所以，要说机器可以学习成绩，我们必须确保我们正在讨论的函数实践上可以由机器来处理：

所运用的函数是恣意的，与任何可辨认的算法有关。（K.P.哈特，《机器学习与延续体假说》）。

哈特指出，本·大卫和他的合著者曾经看法到了这一点。然后他建议让成绩愈加准确：

一种分离“算法”函数的能够方法是要求它们具有良好的描画性属性。假如用“nice”表示“波莱尔可测性”，则希冀的函数不存在。（K.P.哈特，《机器学习与延续体假说》）。

波莱尔可测性是函数所具有的一个性质。定义的准确细节在这里并不重要。但是，运用标准的算法方式（例如图灵机），并将算法函数视为根据算法将某些输入映射到某些输入的函数，可以得出这样的结论：算法是波莱尔可测函数。
哈特证明了没有波莱尔可测函数可以处理估计最大值学习成绩。这意味着没有算法，没有计算机，没无机器可以处理这个成绩。因此：

结果表明波莱尔可测学习函数不存在。这意味着标题《可学习性可以是不可断定的》应该修订为《估计最大值学习是不能够的》。（K.P.哈特，《机器学习与延续体假说》）

我们应该如何了解呢？不管估计最大值学习成绩是不是学习成绩不可定性的恰当例子，我的结论是，数学和逻辑的基础有时看起来是多么笼统和模糊，它们是如此基础，以致于它们影响了像机器学习这样最适用的学科。
想了解更多精彩内容，快来关注老胡说迷信

永远的流浪 · 2021-6-15 20:45:00

LZ敢整点更有创意的不？兄弟们等着围观捏~

82506102 · 2021-6-16 16:55:05

很看好这个

浑身都是G点 · 2021-6-17 14:56:31

撸过

		自动登录	找回密码
密码			立即注册

一个无解的数学难题是如何触及机器学习的极限的？数学统治一切

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们