码农如何迈入机器学习之门

爱吉吉次 · 2019-6-22 18:09:41

01. 聊啥

Python + ?（带你尝甜点）

前段工夫我们聊过一次 Python，不知道大家能否还有印象，再稍微提一提。

Python 是一种胶水言语，可以粘很多家伙，例如：Python + 网站开发、Python + 自动化测试、Python + 自动化运维、Python + AI、Python + 数据分析 ... ...

一眼看上去 Python 的确无能很多，但是掌握 Python 固然重要，往往最重要的还是如何掌握 Python + 后面的家伙，假如只会 Python，那么也就只能写点小工具，小打小闹、满足一下本人一时的求知欲而已。

AI 为业务赋能的实际（带你吃大餐）

从事金融的，尤其是做过金融风控的都知道，假如能提早定位贷款客户能否为坏客户？假如能提早预测贷款客户下个月还款能否会逾期？那么将会把风险降低，平台也止损。

面对诸如此类的业务场景，机器学习能做什么呢？

其实近期我不断在探索，用机器学习去处理业务场景，小有成果。下面简单总结一下探索的过程，我本人也做个总结，同时也预防你们掉坑，顺道也给聪明的小白们，填补填补大脑认知的空白。

吃个核桃，坐稳，扶好，我们末尾。
02. 开聊

站在高处看，一览有余

结合近期的亲身实际，简单画了个图，次要分五大步完成信贷逾期风控模型。

数据处理。次要是获取完成信贷逾期风控模型，所需求的表对应的数据，实际中全部保存成 csv 文件；然后停止单个表数据清洗操作，去除反复、没有意义的字段，清洗完成后存储为一系列的 xx_clean.csv 文件。

数据合并。次要是采用 python 提供的 pandas 来完成一系列的 xx_clean.csv 的 join 关结合并，构成一张数据表，存储为xx_merge.csv 文件，并针对关联之后的文件去除反复的字段。

特征处理。这一步应该是最难的，由于需求靠阅历值来挑选哪些字段停止参与模型训练，假如有阅历的人士，挑选出特征字段，那么接上去就停止特征字段的缺失值、异常值处理；然后优先按照最优分箱停止数据分箱，假如最优的分的不够理想，那么就选择等距停止分箱（看不懂没关系，下次再提这个词，知道在一猿小讲听过就算成功）。

模型训练。首先把数据按照三、七分成测试集、训练集，接着把数据集代入模型去训练，为了找出最优模型，实际的时分把一切模型都跑了一下。

模型评价。针对模型跑出的结果停止评价，为了让产品以及 BOSS 一眼能看懂，采用 matplotlib.pyplot 停止画图。

用到了哪些技术？

Pandas 是 Python 的一个数据分析包。在项目中次要用于读写 csv 文件；两个DataFrame之间的合并、分组等等。其适用起来，相似 SQL 的操作，但是用起来超级简单，功能却比较弱小、效果超级震撼。假如你有数据相关的操作，不妨拿去一用。

Sklearn 是机器学习中常用的第三方模块，对常用的机器学习方法停止了高级封装，可以让我们跳出数学的梦魇停止机器学习实际，大家都可以选择它作为入门的跳板。

NumPy 是 Python 言语的一个扩展程序库，提供弱小的N维数组及相关操作的库。

Matplotlib 是 Python 的绘图库，可以说分分钟画出高大尚的图，让你的完成结果不单调，更直观的分析。假如你往常有画图的场景需求，不妨也尝试一下，由于之前的监控项目也是用这个画的，的确也很弱小的。

假如下面的都没有看懂，也没有跟上，一切都没有关系，由于下面我将带你们一同“入门”机器学习。一切技术都是纸老虎，而打破纸老虎的方式莫过于亲身实际。
03. 鸢尾花，带你入门机器学习

“鸢” 这个字怎样读（）？

鸢尾花可以被分为 setosa、versicolor、virginica 三个种类，如今跟着我的思绪，一步一步来完成：输入特定数据断定花是属于哪一类。

第一步：获取数据
from sklearn.datasets import load_iris
iris_data = load_iris()

第二步：拆分数据集
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(iris_data['data'],iris_data['target'], random_state=0)

第三步：构建模型
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(x_train, y_train)

第四步：模型训练评价，输入准确率
y_pred = knn.predict(x_test)
print("test set score:{:.2f}".format(knn.score(x_test, y_test)))

第五步：预测,四个数据分别代表：花萼长度，花萼宽度，花瓣长度，花瓣宽度
newIRIS = [[4,1.0,2,1.0]]
pred = knn.predict(newIRIS)
print("predict target name: {}".format(iris_data['target_names'][pred]))

第六步：结果输入
准确率为: 0.97
花的种类为: ['setosa']

到这，你们也一只脚迈进了机器学习的门槛，也不再是小白啦。其实细心的你们可以发现，python 代码其实也很简练，其实代码也不复杂，次要都是类库的运用，所以一切技术都是纸老虎，你们莫怕莫怕。
04. 写在最后

技术用啥言语完成不重要，重要的是思想、重要的是思想、重要的是思想（重要的事说三遍）。

还是那句话：技术不要逐一深化，但是要了解。尤其是从事技术管理者，在决策技术完成方案的时分一定会有大协助。

假如你是 python 小白，也不用惧怕，偶然跳出日常繁忙的系统，站在系统之外，了解一下新思想，也未尝不可。

最后假如你也从事相关的工作，不妨按照完成思绪落地一下，说不定指导会很喜欢，升职加薪指日可待。

人工智能时代，终身学习也是必然的，只需不停下学习的脚步，只需勤浇水，梦想终会长大。

往期文章引荐：

人生苦短，学用python

码农永远离不开的小工具

阅历分享一箩筐，从此再也不入坑

二爷最爱小苹果 · 2019-6-22 18:11:03

分享了

人笑我太神经 · 2019-6-22 18:21:10

分享了

ou526411 · 2019-6-23 14:00:46

LZ帖子不给力，勉强给回复下吧

小嶋慶祐 · 2019-6-24 14:10:40

前列腺炎与中医 · 2019-6-25 10:55:36

确实不错，顶先

		自动登录	找回密码
密码			立即注册

码农如何迈入机器学习之门

本帖子中包含更多资源

大神点评5

最近发表

公社版块

关注我们