智客公社

标题: 火爆GitHub：100天搞定机器学习编程（超赞信息图+代码+数据集） [打印本页]

作者: 鹿泉烟火 时间: 2018-12-13 18:40
标题: 火爆GitHub：100天搞定机器学习编程（超赞信息图+代码+数据集）

问耕栗子发自麦蒿寺

量子位出品 | 公众号 QbitAI

[attach]83145[/attach]

你是想喝一辈子糖水，还是想用AI改变世界？

但怎样想是一回事，怎样做往往是另一回事。学习和健身一样，不少人都停留在行动上，有各种借口不曾付诸实施。

为此，YouTube网红Siraj Raval发起了一个应战赛：#100DaysOfMLCode。

这个应战赛意在号召大家举动起来，从参与活动的那天起，每天至少花费1小时的工夫来学习提升或者运用编程，延续坚持100天，从而更好的了解和掌握机器学习这个弱小的工具。积跬步、至千里。

[attach]83146[/attach]

而且参加这个活动，还要运用#100DaysOfMLCode这个标签，在社交平台每日“打卡”，公开记录本人的工作。

你想在这100天里学到什么，或者完成一个项目全凭自主决议。大家的选择五花八门，其中有一个小哥的学习计划，很快引发大家的关注。

这个小哥名叫Avik Jain（重名的不少），他的百天计划，是从机器学习的基础概念起步，逐层递进，内容比较合适初学者。

[attach]83147[/attach]

这个100天搞定机器学习编程的项目，如今曾经是爆红GitHub，很快累积了3000多标星，在Twitter上，也有一大票人热捧这个项目。

同是百天计划，这个有什么特别之处？三点：

1、超赞的学习图片

2、配套的代码

3、相应的数据集

对这个项目的评价，多以awesome、great、fantastic、outstanding、perfect等评价，大家纷纷表示感激（并祝楼主好人终身安全）。

项目地址在此：

https://github.com/Avik-Jain/100-Days-Of-ML-Code

请你一定收藏好。

目前作者的100天计划，曾经停止到第25天，已有的内容包括：

数据预处理、线性回归、逻辑回归、K最临近算法、支持向量机、深度学习专项课程等，最新的内容曾经讲到决策树及完成等。

量子位摘录其中的部分内容，做个示例。

第一天

[attach]83148[/attach]

看上去，真是美妙的一天。

第一步：导入一些库

[attach]83149[/attach]

Numpy和Pandas这两个，是非常重要的库。

Numpy外面有各种数学函数，Pandas是用来导入数据集、管理数据集的。

1 import numpy as np

2 import pandas as pd

第二步：导入数据集

[attach]83150[/attach]

数据集通常是.csv格式。CSV文件，是把表格数据，存储成纯文本。每一行是一个数据记录 (Data Record) 。

在Pandas库外面，用read_csv的方法，来读取本地的CSV文件，每个文件是一个数据帧 (Data Frame) 。

给每个数据帧里的自变量和因变量，分别做矩阵和向量。

1 dataset = pd.read_csv('Data.csv')

2 X = dataset.iloc[ : , :-1].values

3 Y = dataset.iloc[ : , 3].values

第三步：处理缺失数据

[attach]83151[/attach]

我们获取的数据，通常是异构数据。导致缺失数据 (Missing Data) 的缘由有很多，需求处理一下，模型的表现才不会减损。

可以把缺失的数据，用整列数据的平均值或者中位数代替。拿sklearn.preprocessing里的Imputer来处理。

1 from sklearn.preprocessing import Imputer

2 imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)

3 imputer = imputer.fit(X[ : , 1:3])

4 X[ : , 1:3] = imputer.transform(X[ : , 1:3])

第四步：编码分类数据

[attach]83152[/attach]

分类数据 (Categorical Data) 里的变量，不包含数值，只包含分类标签。

比如，是/否，性别，婚姻形状，这样的变量，是没办法当成数值直接运算的。

所以，才需求把它们编码成可以运算的数值。用sklearn.preprocessing外面的LabelEncoder就可以了。

1 from sklearn.preprocessing import LabelEncoder, OneHotEncoder

2 labelencoder_X = LabelEncoder()

3 X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

创建个虚拟变量：

1 onehotencoder = OneHotEncoder(categorical_features = [0])

2 X = onehotencoder.fit_transform(X).toarray()

3 labelencoder_Y = LabelEncoder()

4 Y = labelencoder_Y.fit_transform(Y)

第五步：分开训练集和测试集

[attach]83153[/attach]

要把数据集分成两半，一个当训练集，另一个当测试集。

普通来说，可以按80/20这样分，训练集大一些。用sklearn.crossvalidation外面的train_test_split() 来分，就行了。

1 from sklearn.cross_validation import train_test_split

2 X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)

第六步：特征缩放

[attach]83154[/attach]

大部分机器学习算法，都会拿两个数据点之间的欧几里得间隔 (Euclidean Distance) 做计算。

这样一来，假如一个特征比其他特征的范围值更大，这个特征值就会成为主导。

而我们希望其他特征，也得到同等的注重，所以用特征标准化 (Feature Standardization) 来处理这个成绩。

sklearn.preprocessing外面的StandardScalar，就派上用场了。

1 from sklearn.preprocessing import StandardScaler

2 sc_X = StandardScaler()

3 X_train = sc_X.fit_transform(X_train)

4 X_test = sc_X.fit_transform(X_test)

第二天

[attach]83155[/attach]

明天，要做的是简单线性回归 (Simple Linear Regression) 。

[attach]83156[/attach]

就是拿已知的那些 (x,y) 数据点，做出一条线性的趋向，来预测其他x值，对应的y。

第一步：数据预处理

[attach]83157[/attach]

其实，就是把第一天做过的事情，复习一下：

· 导入一些库

· 导入数据集

· 处理缺失数据

· 把数据集分成训练集和测试集

· 特征缩放的话，交给库了

1 import pandas as pd

2 import numpy as np

3 import matplotlib.pyplot as plt

4

5 dataset = pd.read_csv('studentscores.csv')

6 X = dataset.iloc[ : , : 1 ].values

7 Y = dataset.iloc[ : , 1 ].values

8

9 from sklearn.cross_validation import train_test_split

10 X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0)

第二步：拟合训练集

[attach]83158[/attach]

要把数据集，拟合到简单线性回归模型外面去，可以用sklearn.linear_model外面的LinearRegression来处理。

在LinearRegression外面，建一个叫做regressor的对象。

然后，把regressor拟合到数据集里去，用fit() 就行了。

1 from sklearn.linear_model import LinearRegression

2 regressor = LinearRegression()

3 regressor = regressor.fit(X_train, Y_train)

第三步：预测结果

[attach]83159[/attach]

如今，用测试集来预测一下。

把输入存到一个向量Y_pred外面。然后，用LinearRegression外面的预测方法，来支配上一步训练过的regressor。

1 Y_pred Y_pred == regressor.predict(X_test) regressor.predict(X_test)

第四步：可视化

[attach]83160[/attach]

最后一步，就是给预测结果做个可视化。

用matplotlib.pyplot做散点图，给训练集和测试集都做一下，看看预测结果是不是接近真实。

训练集可视化：

1 plt.scatter(X_train , Y_train, plt.scatter(X_train , Y_train, colorcolor == ''redred'')

2 plt.plot(X_train , regressor.predict(X_train), ) plt.plot(X_train , regressor.p color ='blue')

测试集可视化：

1 plt.scatter(X_test , Y_test, color = 'red')

2 plt.plot(X_test , regressor.predict(X_test), color ='blue')

两件需求提示的事

总之，大概就是下面这个样子。部分曾经放出的信息图集合如下，大家可以预览一下。

[attach]83161[/attach]

假如你也想入门或者提升本人的机器学习才能，不妨试试跟着这个小哥一同窗习提高。虽然这个项目全是英文，但并不晦涩高深，说不定还能特地提高一下英文程度，当前读paper也用得到~

还有两件事，需求提示一下。

1、这个项目曾经末尾汉化了

@zhyongquan 在GitHub上曾经末尾尝试中文版，效果如下图所示。

[attach]83162[/attach]

不过目前只停止了第一天内容的汉化。假如你感兴味，可以持续关注，或者加入汉化的举动中。地址在此：

https://github.com/Avik-Jain/100-Days-Of-ML-Code/issues/8

2、项目内容不能盲信

尽信书不如无书。这个学习项目，也不是百分百完全正确，比如第四天讲逻辑回归时的右下角配图，就被指出存在错误。

作者也承诺将更新改正这个成绩。

就酱。

最后，再发一次这个项目的地址：

https://github.com/Avik-Jain/100-Days-Of-ML-Code

请你一定收藏好，假如能末尾学习那就更好啦。

假如这种偏入门的内容不合适你，还有更多进阶或者详细项目完成的100天计划可供参考，希望能协助你精进。

比方#100DaysOfMLCode应战赛发起人Siraj Raval，就选择了在100天里，运用机器学习技术，根据气温、降水、植被变化等要素，预测每周的登革热疫情，改善防疫的研讨计划和资源分配。

你也可以选择其他项目，或者在Twitter、GitHub等看看别人的100天应战，有没有你合适跟随的，或者全新启动你的应战。

对了Siraj Raval还在GitHub和YouTube上发布过很多其他机器学习课程，例如三个月学习机器学习，六周入门深度学习等。

相关地址在此：

https://github.com/llSourcell

总之，准绳就是每天提高一点点。

加油。

[attach]83163[/attach]

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。等待有才气、有热情的同窗加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

作者: 此ID专用泡妞 时间: 2018-12-13 20:34
欢迎离开收藏了也不会看系列

作者: MY_细碎年华 时间: 2018-12-13 21:49
本国人真的后天言语就占优势。

作者: 伟姐姐 时间: 2018-12-13 23:09
用的还是scikit-learn，真牛逼都是结合spark这类大数据处理工具本人完成机器学习算法的。

作者: 艾雪之缘 时间: 2018-12-14 00:02
什么言语？

作者: 李玉祥 时间: 2018-12-14 01:55
一天学习内容当我一周

作者: 红颜素手 时间: 2018-12-14 03:24
要是有深度学习100天就好了

作者: 云凌子i 时间: 2018-12-14 04:28
值得深度去学习

作者: 这个真不会有 时间: 2018-12-14 04:33
国内有相似的吗，国外的看不懂

作者: 面壁经年图破壁 时间: 2018-12-14 05:48
的确很好，分享了

作者: 郁闷的大叔1983 时间: 2018-12-14 06:17
这种方式不错

作者: ricosama 时间: 2018-12-14 08:09
建议大家尽量看英文版，你会发现更容易了解，思想更容易跟上

作者: 四维钢铁 时间: 2018-12-14 09:49
github都被墙了，杠精别烦我，本人搜zhao

作者: 枫林天涯 时间: 2018-12-14 11:15
能坚持100天赋是最总要的

作者: hylt 时间: 2018-12-14 12:53
收藏不看系列

作者: 美丑一张脸Miss 时间: 2018-12-14 14:13
amazing

作者: 瓶中鱼007 时间: 2018-12-14 14:14
好，很好，非常好！

作者: 偶本愚 时间: 2018-12-14 15:32
来了来了，稍后运用

作者: Kalon 时间: 2018-12-14 15:35
这哥们的freestyle很咖喱

作者: yeederjon 时间: 2018-12-14 16:13
收藏[呲牙]

作者: 2361096462ttt 时间: 2018-12-14 17:06
技术卡

作者: xuehenrui1 时间: 2018-12-14 17:35
高级

欢迎光临智客公社 (http://bbs.cnaiplus.com/)