智客公社

标题: scikit-learn 0.22版正式发布,第一工夫来学习新功能 [打印本页]

作者: zhl822    时间: 2019-12-6 14:31
标题: scikit-learn 0.22版正式发布,第一工夫来学习新功能
搞机器学习的应该没有人不知道scikit-learn吧,这个在ML中运用非常频繁的库在昨天曾经发布了它最新版本0.22了。
[attach]274472[/attach]

scikit-learn 0.22的发布,其中包含许多错误修复和新功能!我们在下面详细引见此版本的一些次要功能。

要安装最新版本(运用pip):

pip install -U scikit-learn

运用conda

conda install scikit-learn

新增的绘图API

新的绘图API可用于创建可视化。这个新的API可以疾速调整绘图的视觉效果,而无需停止任何重新计算。也可以在同一图形上添加不同的图。下面的例子阐明plot_roc_curve,但其他地块事业的支持一样 plot_partial_dependenceplot_precision_recall_curveplot_confusion_matrix
[attach]274473[/attach]

[attach]274474[/attach]

堆叠分类和回归

StackingClassifierStackingRegressor 允许您运用一堆带有最终分类器或回归器的估算器。堆叠概括包括堆叠各个估算器的输入,并运用分类器来计算最终预测。堆叠允许经过将每个单独的估算器的输入用作最终估算器的输入来应用其强度。基本估计量完全拟合,X而最终估计量则运用停止交叉验证的基本估计量预测停止训练cross_val_predict。
[attach]274475[/attach]


输入:0.9473684210526315

基于陈列(permutation)的特征重要性

inspection.permutation_importance可用于获取的每个特征的重要性,对于任何拟合估计的估计:
[attach]274476[/attach]

[attach]274477[/attach]

原生支持缺失值以停止梯度加强

ensemble.HistGradientBoostingClassifierensemble.HistGradientBoostingRegressor如今有遗漏值(NaN的)的原生支持。这意味着在训练或预测时无需插补数据。
[attach]274478[/attach]


输入:[0 0 1 1]

预先计算的稀疏最近邻居图

大多数基于最近邻图的估计量都接受预先计算的稀疏图作为输入,以将同一图重用于多个估计量拟合。要在管道中运用此功能,可以运用memory参数以及两个新转换器之一 neighbors.KNeighborsTransformerneighbors.RadiusNeighborsTransformer。估计算也可以由自定义估算器执行,以运用替代完成,例如近似最近邻方法。
[attach]274479[/attach]

基于KNN的插补

支持运用k最近邻来完成缺失值的估算。

每个样本的缺失值都是运用n_neighbors训练集中找到的最近邻的平均值估算的 。假如两个都不丢失的特征都关闭,则两个样本关闭。默许状况下,支持缺失值的欧几里得间隔度量标准 nan_euclidean_distances用于查找最近的邻居。
[attach]274480[/attach]

输入:
[attach]274481[/attach]

树的剪枝

树建成后,如今可以修剪大多数基于树的估计量。修剪基于最小的成本复杂性。
[attach]274482[/attach]

输入:

Average number of nodes without pruning 22.3

Average number of nodes with pruning 6.4

从OpenML检索数据帧

datasets.fetch_openml 如今可以前往pd.DataFrame,从而正确处理具有异构数据的数据集:
[attach]274483[/attach]

输入:
[attach]274484[/attach]

检查估计器的scikit-learn兼容性

开发人员可以运用来检查其scikit-learn兼容估计器的兼容性check_estimator。例如,check_estimator(LinearSVC)通行证。

如今,我们提供了一个pytest特定的装饰器,该装饰器允许pytest 独立运转一切检查并报告失败的检查。
[attach]274485[/attach]

ROC AUC支持多类别分类

该roc_auc_score功能也可以用于多类分类。

当前支持两种平均策略:

“一对多”算法计算成对的ROC AUC分数的平均值,

“一对多休息”算法计算每个类别相对于一切其他类别的ROC AUC分数的平均值。

在这两种状况下,都根据模型根据样本属于特定类别的概率估计来计算多类ROC AUC分数。OvO和OvR算法支持一致加权(average='macro')和按盛行度(average='weighted')停止加权。
[attach]274486[/attach]


输入:0.9957333333333332

喜欢运用scikit-learn的冤家赶快去试试它的新功能吧!
作者: 中意你cy    时间: 2019-12-6 14:37
分享了
作者: 旁观拍手笑疏狂    时间: 2019-12-7 13:54
无论是不是沙发都得回复下
作者: 刺眼xiaolow    时间: 2019-12-8 09:35
我也是坐沙发的
作者: feihu_    时间: 2019-12-9 09:35
沙发???




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4