机器学习中的数学，这是一份新颖出炉的抢手草稿

郁闷的大叔1983 · 2019-1-1 14:27:30

选自 mmlbook，作者：Marc Peter Deisenroth、A Aldo Faisal、Cheng Soon Ong，机器之心编译,参与：路雪、王淑婷。

近日，Marc Peter Deisenroth、A Aldo Faisal 和 Cheng Soon Ong 所著书籍《Mathematics for Machine Learning》的全部草稿已放出，机器之心整理了这本书的简要概述。感兴味的读者可从以下链接获取全文（英文版）。

书籍地址：https://mml-book.github.io/
以下是这本书的部分序文。
机器学习是捕捉人类知识、对合适构建机器和工程化自动系统的格式停止推理的最新尝试。随着机器学习越来越普遍，软件包越来越易用，自但是然地，从业者不会留意低级技术细节。但是，这带来了一些风险，即从业者不了解设计决策，更容易忽略机器学习算法的局限性。对成功的机器学习算法的背后机制感兴味的从业者需求学习如下必备知识：

编程知识和数据分析工具；
大规模计算和相关框架；
数学和统计学知识，以及机器学习如何在其上构建。

在大学里，机器学习的基础课程会先花工夫引见部分必备知识。由于历史缘由，机器学习课程通常属于计算机迷信系，先生通常接受过前两项必备知识范畴的训练，但对数学和统计学知识能够涉猎不多。目前的机器学习教科书尝试用一两章的篇幅覆盖背景数学知识，能够在书的扫尾或者是附录。而本书将引见基础机器学习概念的数学基础，并搜集相关信息。
为什么要再写一本关于机器学习的书？
机器学习构建于数学言语之上，以表达看似直观实则难以方式化的概念。一旦得到恰当的方式化，我们就可以运用数学工具推导出机器学习算法设计的选择结果。这协助我们了解正在处理的义务，同时了解智能的本质。全球数学专业的先生常见的一种抱怨是数学话题似乎与实践成绩没有什么相关。我们以为机器学习是促使人们学习数学的直接动力。
本书旨在作为构建古代机器学习基础的大量数学文献的指南。我们经过直接指出数学概念在基础机器学习成绩中的有用性来促进对数学概念学习的需求。为使书籍尽量简短，我们省略了很多细节和高级概念。本书次要引见基础数学概念及其在机器学习语境中的意义，读者可在章节最后找到进一步学习的大量资源。对于具有数学背景的读者，本书提供简约但表述准确的机器学习概览。与次要引见机器学习方法和模型或编程知识的书籍不同，本书仅提供四个代表性机器学习算法。我们次要关注模型背后的数学概念，并描画其笼统之美。我们希望一切读者可以经过数学模型中的基础选择愈加深化地了解机器学习运用中出现的机器学习基础成绩和相关的实践成绩。
目的读者
随着机器学习运用在社会中的广泛运用，我们以为每个人都应该了解其背后的准绳。本书以学术数学风格写成，可以协助读者准确了解机器学习背后的概念。我们鼓励不熟习这一风格的读者坚持阅读本书，并牢记每个话题的目的。我们将在文本中插入大量回复，希望可以协助读者获取对全局的了解。本书假设读者具有中学数学和物理知识。例如，读者应该了解过导数和积分，以及二维三维几何向量。因此，本书的目的读者包括本科大先生、夜校先生和参与机器学习在线课程的人们。
本书结构如下所示：
第一部分：数学基础
1. 引言和动机
2. 线性代数
3. 解析几何
4. 矩阵分解
5. 向量微积分
6. 概率和分布
7. 延续优化
第二部分：机器学习核心成绩
1. 当模型遇到数据
2. 线性回归
3. 应用主成分分析停止降维
4. 应用高斯混合模型停止密度估计
5. 应用支持向量机停止分类
我们可以用以下两种策略来了解机器学习中的数学：
按从基础到高级的顺序构建概念。这通常是偏技术性范畴（如数学）的首选方法。该策略的优点是，读者可以随时依赖本人以前学过的定义，不会遇到那些晦涩难懂、难以接受的观点。但对于从业者来说，许多基础概念本身并不怎样风趣，因此大多数基础定义会被他们很快遗忘。
从实践需求向下发掘出更基础的要求。这种目的驱动方法的优点是，读者随时都知道为什么他们需求研讨特定的概念，并且明晰地知道本人需求哪些知识。这种策略的缺陷是知识的基础并不波动，读者必须记住一组本人并不了解的单词。
本书分为两部分，第一部分讲数学基础，第二部分将第一部分的概念运用于基本的机器学习成绩中，继而构成了图 1.1 中阐述的「机器学习四大支柱」。

图 1.1：机器学习的基础和四大支柱。
第一部分关于数学
我们将数值数据表示为向量，并将这些数据的表格表示为矩阵。向量和矩阵的研讨被称为线性代数，见本书第 2 章。
我们常常以为数据是一些真实潜在信号的噪声观测结果，并希望经过机器学习从噪声中辨认出信号。为此我们需求一种言语来量化噪声的含义。我们也常常希望能有预测因子来表达某种不确定性，例如，量化我们对特定测试数据概率预测值的置信度。对不确定性的量化属于概率论的范畴，在本书第 6 章有所触及。
为了把爬山法（hill-climbing）运用于训练机器学习模型，我们需求方式化梯度的概念，它会告诉我们寻觅解的方向。搜索方向这个想法是经过微积分来方式化的，我们在第 5 章引见了这一点。如何运用这些搜索方向序列来找到山顶被称为优化，见本书第 7 章。
第二部分关于机器学习
本书第二部分引见了机器学习的四大支柱，如下表所示。表中的每一行区分了成绩的相关变量是延续还是类别。我们解释了如何将本书第一部分引见的数学概念运用于机器学习算法的设计中。

表 1.1：机器学习的四大支柱。

图 2.2：该思想导图展现了本章引见的概念及其与其他章节的关联。

3wingsun34 · 2019-1-1 14:37:55

出一本，机器学习数学基础应该会很抢手

大唐徐子陵 · 2019-1-1 14:48:05

难道不就是线性代数与统计分析？

当年那月如伤痕 · 2019-1-1 14:58:03

这本书不错，曾经看完了

lcnureau · 2019-1-1 15:09:03

还是挺笼统的

枕闕 · 2019-1-1 15:11:49

@铁山红ANDREW

chaote56 · 2019-1-1 15:17:25

凶猛了

510773837 · 2019-1-1 15:28:33

分享了

绛珠草 · 2019-1-1 15:30:41

分享了

猫猫2008 · 2019-1-1 15:37:03

分享了

		自动登录	找回密码
密码			立即注册

机器学习中的数学，这是一份新颖出炉的抢手草稿

本帖子中包含更多资源

大神点评23

最近发表

公社版块

关注我们