马住！谷歌机器学习主管“十年自学编程”的三个心得体会

山茶707 · 2019-12-9 17:06:34

全文共3243字，估计学习时长10分钟

来源：Pexels

数据迷信、机器学习和分析被以为是最抢手的职业之一。

工业界、学术界和政府对纯熟数据迷信的从业人员的需求正在迅速增长。因此，目前的“数据热潮”正吸引着大量专业人士，他们有着不同的背景，如物理学、数学、统计学、经济学和工程学。数据迷信家的工作前景非常悲观。IBM预测到2020年，对数据迷信家的需求将飙升28%：

https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#7916f3057e3b.

数据迷信是一个非常广泛的范畴，包括几个分支，比如数据预备和探求、数据表示和转换、数据可视化和表示、预测分析、机器学习等。对学习数据迷信基础感兴味的初学者能够会有以下成绩：

1. 学习数据迷信的基础知识需求多长工夫？

2. 学习数据迷信有哪些资源？

选择上述标题的动机是基于彼得·诺维格(Peter Norvig)关于成为编程专家所需工夫的这一观点。假如读者还没有读过这篇文章，笔者在此建议读者阅读彼得诺维格（谷歌机器学习主管）的《十年自学编程》。以下是文章的链接：http://norvig.com/21-days.html.

这里的要点是，不需求花10年的工夫来学习数据迷信的基础知识，但是匆忙学习数据迷信一定没有协助。成为一名数据迷信家需求工夫、努力、精神、耐烦和奉献肉体。

来源：Pexels

彼得·诺维格的建议是，学习需求工夫、耐烦和承诺。当心那些说可以在4周或1个月内学习数据迷信的文章、书籍或网站。假如对学习数据迷信的基本原理感兴味，就要预备投入适当的工夫和精神，这样不只可以掌握浅层概念，而且可以掌握深化的数据迷信概念。

笔者花了两年的工夫深化学习掌握了数据迷信的基础知识（经过自学），这是由于笔者拥有物理学博士学位，而且有扎实的数学和编程背景。掌握数据迷信的基础知识需求多长工夫取决于个人背景。普通来说，在数学、统计学、计算机迷信、工程学或经济学等分析学科有扎实的背景是有利的。

彼得·诺维格“十年自学编程”的三个心得体会

· 掌握数据迷信的基础知识需求工夫、精神、耐烦和奉献肉体

数据迷信是一个跨学科范畴，需求在高等数学、统计学、程序设计和其他相关的数据分析、数据可视化、模型构建、机器学习等方面有扎实的背景知识。笔者花了两年的工夫来专门学习并掌握了数据迷信的基础知识，这是由于笔者具有扎实的数学、物理和编程背景。以下是一些协助掌握数据迷信基础知识的资源。

1. 数据迷信专业证书（经过edX从HarvardX获取）：https://www.edx.org/professional...

包括以下课程，全部运用R言语教学（可以收费听课或购买认证证书）：

（1）数据迷信：R基础；

（2）数据迷信：可视化；

（3）数据迷信：概率论；

（4）数据迷信：推理与建模；

（5）数据迷信：消费力工具；

（6）数据迷信：争论；

（7）数据迷信：线性回归；

（8）数据迷信：机器学习；

（9）数据迷信：顶点

2. 分析学：基本工具和方法（经过edX从Georgia TechX获取）：https://www.edx.org/micromasters/analytics-essential-tools-methods

包括以下课程，全部运用R、Python和SQL停止教授（可以收费听课或购买认证证书）：

（1）分析建模导论；

（2）数据分析计算概论；

（3）商业数据分析。

3. Python专业的运用数据迷信（经过Coursera从密歇根大学网站获取）： https://www.coursera.org/special...

包括以下课程，全部运用python停止教授（可以收费听大多数课程，有些课程需求购买认证证书）：

（1） Python数据迷信概论；

（2）运用Python停止绘图、制图和数据表示；

（3）运用Python停止机器学习；

（4）运用Python停止文本发掘；

（5）运用Python停止社交网络分析。

4. 数据迷信教材

从教科书中学到的知识比从网络课程中学到的更精细、更深化。本书引见了数据迷信和机器学习，包括代码：《Python机器学习》，作者是塞巴斯蒂安·拉什卡（Sebastian Raschka）。他以一种非常容易了解的方式解释了机器学习的基本概念。此外，还包括代码，因此可以运用提供的代码来实际和构建本人的模型。笔者以为这本书在本人作为数据迷信家的旅程中非常有用。笔者会向任何有志于数据迷信的人引荐这本书。只需求基本的线性代数和编程技巧就能了解这本书。还有很多其他优秀的数据迷信教科书，比如韦斯·麦金尼 (Wes McKinney)的《应用Python停止数据分析》、马克斯·库恩和谢尔·约翰逊的《运用预测建模》、伊恩·H·威滕和马克A. 霍尔的《数据发掘：适用机器学习工具与技术》等等。

5. 与其他数据迷信爱好者建立网络

从个人阅历来看，经过与其他数据迷信爱好者合作，笔者从每周的数据迷信和机器学习主题的小组对话中学到了很多东西。与其他有志于数据迷信的人建立关系，在GitHub上分享代码，在领英上展现技能，这将真正有助于在短工夫内学会很多新的概念和工具，也会接触到新的做事方式，以及新的算法和技术。

· 了解数据迷信的实际基础和动手操作的数据迷信技能一样重要

数据迷信是数学密集型学科，需求具有以下知识：

1. 统计和概率

2. 多元微积分

3. 线性代数

4. 优化与运筹学

虽然Python的scikit-learn和R的Caret库包含了一些用于停止数据迷信和构建机器学习模型的工具，但是了解每种方法的实际基础是非常重要的。

· 避免讲机器学习模型作为黑盒工具运用

数据迷信的坚实背景将使数据迷信家可以建立牢靠的预测模型。例如，在建立模型之前，会有这样的成绩：

（1）什么是预测变量？

（2）目的变量是什么？目的变量是团圆的还是延续的？

（3）应该运用分类还是回归分析？

（4）如何处理数据集中的缺失值？

（5）当将变量引入相反的范围时，应该运用规范化还是标准化？

（6）能否采用主成分分析法？

（7）如何微调模型中的超参数？

（8）如何评价模型以检测数据集中的偏向？

（9）能否应该运用集成方法，即便用不同的模型停止训练，然后停止全体平均，例如运用分类器，如支持向量机(SVM)、K-近邻算法(KNN)、逻辑回归，然后对3个模型的结果停止平均？

（10）如何选择最终模型？

机器学习模型的好坏取决于一个人了解模型的一切细节的才能，包括关于不同超参数的知识，以及如何调整这些参数以获得功能最佳的模型。把任何一个机器学习模型当作一个黑匣子，却不能完全了解模型的复杂性，将会导致伪造模型的出现。

来源：Pexels

总之，数据迷信是当今最抢手的范畴之一。数字革命创造了成千上万的数据。公司、行业、组织和政府每天都会产生大量的数据。对高技能数据迷信家的需求只会继续增长。

如今是花工夫掌握数据迷信基础知识的最佳机遇。在这样做的时分，当心那些说可以在4周或一个月内掌握数据迷信的文章、书籍或网站。不要焦急，花点工夫掌握数据迷信的基础知识。

一同来愉快地学习吧~

留言点赞关注

我们一同分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

再来一瓶 · 2019-12-10 07:37:13

是爷们的娘们的都帮顶！大力支持

馆芥莘 · 2019-12-10 22:33:54

好，很好，非常好！

lilipopoiu · 2019-12-11 20:28:46

一点毛病没有，顶你

		自动登录	找回密码
密码			立即注册

马住！谷歌机器学习主管“十年自学编程”的三个心得体会

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们