智客公社

标题: 手把手教你完成PySpark机器学习项目——回归算法 [打印本页]

作者: 曾勇明 时间: 2019-11-14 15:35
标题: 手把手教你完成PySpark机器学习项目——回归算法
作者 | hecongqing

来源 | AI算法之心（ID:AIHeartForYou）

【导读】PySpark作为工业界常用于处理大数据以及分布式计算的工具，特别是在算法建模时起到了非常大的作用。PySpark如何建模呢？这篇文章手把手带你入门PySpark，提早感受工业界的建模过程！

义务简介

在电商中，了解用户在不同品类的各个产品的购买力是非常重要的！这将有助于他们为不同产品的客户创建个性化的产品。在这篇文章中，笔者在真实的数据集中手把手完成如何预测用户在不同品类的各个产品的购买行为。

假如有兴味和笔者一步步完成项目，可以先根据上一篇文章的引见中安装PySpark，并在网站中下载数据。

https://datahack.analyticsvidhya.com/contest/black-friday/

数据集简介

某批发公司想要了解针对不同类别的各种产品的顾客购买行为（购买量）。他们为上个月选定的大批量产品分享了各种客户的购买汇总。该数据集还包含客户人口统计信息(age, gender, marital status, city_type, stay_in_current_city)，产品详细信息（product_id and product category）以及上个月的purchase_amount总数。如今，他们希望建立一个模型来预测客户对各种产品的购买量，这将有助于他们为不同产品的客户创建个性化的产品。

手把手实战项目

1. 导入数据

这里我们运用PySpark的读数据接口read.csv读取数据，和pandas读取数据接口迷之相似。

from pyspark.sql import SparkSessionspark = SparkSession \\ .builder \\ .appName("test") \\ .config("spark.some.config.option", "setting") \\ .getOrCreate train = spark.read.csv('./BlackFriday/train.csv', header=True, inferSchema=True)test = spark.read.csv('./BlackFriday/test.csv', header=True, inferSchema=True

2. 分析数据的类型

要查看Dataframe中列的类型，可以运用printSchema方法。让我们在train上运用printSchema，它将以树格式打印形式。

train.printSchema"""root |-- User_ID: integer (able = true) |-- Product_ID: string (able = true) |-- Gender: string (able = true) |-- Age: string (able = true) |-- Occupation: integer (able = true) |-- City_Category: string (able = true) |-- Stay_In_Current_City_Years: string (able = true) |-- Marital_Status: integer (able = true) |-- Product_Category_1: integer (able = true) |-- Product_Category_2: integer (able = true) |-- Product_Category_3: integer (able = true) |-- Purchase: integer (able = true)"""

3. 预览数据集

在PySpark中，我们运用head方法预览数据集以查看Dataframe的前n行，就像python中的pandas一样。我们需求在head方法中提供一个参数(行数)。让我们看一下train的前5行。
train.head(5)"""[Row(User_ID=1000001, Product_ID='P00069042', Gender='F', Age='0-17', Occupation=10, City_Category='A', Stay_In_Current_City_Years='2', Marital_Status=0, Product_Category_1=3, Product_Category_2=None, Product_Category_3=None, Purchase=8370), Row(User_ID=1000001, Product_ID='P00248942', Gender='F', Age='0-17', Occupation=10, City_Category='A', Stay_In_Current_City_Years='2', Marital_Status=0, Product_Category_1=1, Product_Category_2=6, Product_Category_3=14, Purchase=15200), Row(User_ID=1000001, Product_ID='P00087842', Gender='F', Age='0-17', Occupation=10, City_Category='A', Stay_In_Current_City_Years='2', Marital_Status=0, Product_Category_1=12, Product_Category_2=None, Product_Category_3=None, Purchase=1422), Row(User_ID=1000001, Product_ID='P00085442', Gender='F', Age='0-17', Occupation=10, City_Category='A', Stay_In_Current_City_Years='2', Marital_Status=0, Product_Category_1=12, Product_Category_2=14, Product_Category_3=None, Purchase=1057), Row(User_ID=1000002, Product_ID='P00285442', Gender='M', Age='55+', Occupation=16, City_Category='C', Stay_In_Current_City_Years='4+', Marital_Status=0, Product_Category_1=8, Product_Category_2=None, Product_Category_3=None, Purchase=7969)]"""

要查看数据框架中的行数，我们需求调用方法count。让我们核对一下train上的行数。Pandas和Spark的count方法是不同的。

4. 插补缺失值

经过调用drop方法，可以检查train上非空数值的个数，并停止测试。默许状况下，drop方法将删除包含任何空值的行。我们还可以经过设置参数“all”,当且仅当该行一切参数都为时以删除该行。这与pandas上的drop方法相似。

train.na.drop('any').count,test.na.drop('any').count"""(166821, 71037)"""

在这里，为了填充简单，我运用-1来填充train和test的值。虽然这不是一个很好的填充方法，你可以选择其他的填充方式。

train = train.fillna(-1)test = test.fillna(-1)

5. 分析数值特征

我们还可以运用describe方法查看Dataframe列的各种汇总统计信息，它显示了数字变量的统计信息。要显示结果，我们需求调用show方法。

train.describe.show"""+-------+------------------+----------+------+------+------------------+-------------+--------------------------+-------------------+------------------+------------------+------------------+-----------------+|summary| User_ID|Product_ID|Gender| Age| Occupation|City_Category|Stay_In_Current_City_Years| Marital_Status|Product_Category_1|Product_Category_2|Product_Category_3| Purchase|+-------+------------------+----------+------+------+------------------+-------------+--------------------------+-------------------+------------------+------------------+------------------+-----------------+| count| 550068| 550068|550068|550068| 550068| 550068| 550068| 550068| 550068| 550068| 550068| 550068|| mean|1003028.8424013031| | | | 8.076706879876669| | 1.468494139793958|0.40965298835780306| 5.404270017525106| 6.419769919355425| 3.145214773446192|9263.968712959126|| stddev| 1727.591585530871| | | |6.5226604873418115| | 0.989086680757309| 0.4917701263173259| 3.936211369201324| 6.565109781181374| 6.681038828257864|5023.065393820593|| min| 1000001| P00000142| F| 0-17| 0| A| 0| 0| 1| -1| -1| 12|| max| 1006040| P0099942| M| 55+| 20| C| 4+| 1| 20| 18| 18| 23961|+-------+------------------+----------+------+------+------------------+-------------+--------------------------+-------------------+------------------+------------------+------------------+-----------------+"""

下面看起来好像比较乱，这里我们选择某一列来看看。

让我们从一个列中选择一个名为“User_ID”的列，我们需求调用一个方法select并传递我们想要选择的列名。select方法将显示所选列的结果。我们还可以经过提供用逗号分隔的列名，从数据框架中选择多个列。

train.select('User_ID','Age').show(5)"""+-------+----+|User_ID| Age|+-------+----+|1000001|0-17||1000001|0-17||1000001|0-17||1000001|0-17||1000002| 55+|+-------+----+only showing top 5 rows"""

6. 分析categorical特征

为了建立一个模型，我们需求在“train”和“test”中看到分类特征的分布。这里我只对Product_ID显示这个，但是我们也可以对任何分类特性执行相反的操作。让我们看看在“train”和“test”中Product_ID的不同类别的数量。这可以经过运用distinct和count方法来完成。

train.select('Product_ID').distinct.count, test.select('Product_ID').distinct.count"""(3631, 3491)"""

在计算“train”和“test”的不同值的数量后，我们可以看到“train”和“test”有更多的类别。让我们运用相减方法检查Product_ID的类别，这些类别正在"test"中，但不在“train”中。我们也可以对一切的分类特征做异样的处理。

diff_cat_in_train_test=test.select('Product_ID').subtract(train.select('Product_ID'))diff_cat_in_train_test.distinct.count"""(46, None)"""diff_cat_in_train_test.distinct.show(5)"""+----------+|Product_ID|+----------+| P00322642|| P00300142|| P00077642|| P00249942|| P00294942|+----------+only showing top 5 rows"""

以上你可以看到46个不同的类别是在"test"中，而不在"train"中。在这种状况下，我们要么搜集更多关于它们的数据，要么跳过那些类别(有效类别)的“test”。

7. 将分类变量转换为标签

我们还需求经过在Product_ID上运用StringIndexer转换将分类列转换为标签，该转换将标签的Product_ID列编码为标签索引的列。

from pyspark.ml.feature import StringIndexerplan_indexer = StringIndexer(inputCol = 'Product_ID', outputCol = 'product_id_trans')labeller = plan_indexer.fit(train)

在下面，我们将fit方法运用于“train”数据框架上，构建了一个标签。稍后我们将运用这个标签来转换我们的"train"和“test”。让我们在labeller的协助下转换我们的train和test的Dataframe。我们需求调用transform方法。我们将把转换结果存储在Train1和Test1中。

Train1 = labeller.transform(train)Test1 = labeller.transform(test)Train1.show(2)"""+-------+----------+------+----+----------+-------------+--------------------------+--------------+------------------+------------------+------------------+--------+----------------+|User_ID|Product_ID|Gender| Age|Occupation|City_Category|Stay_In_Current_City_Years|Marital_Status|Product_Category_1|Product_Category_2|Product_Category_3|Purchase|product_id_trans|+-------+----------+------+----+----------+-------------+--------------------------+--------------+------------------+------------------+------------------+--------+----------------+|1000001| P00069042| F|0-17| 10| A| 2| 0| 3| -1| -1| 8370| 766.0||1000001| P00248942| F|0-17| 10| A| 2| 0| 1| 6| 14| 15200| 183.0|+-------+----------+------+----+----------+-------------+--------------------------+--------------+------------------+------------------+------------------+--------+----------------+only showing top 2 rows"""Train1.select('product_id_trans').show(2)"""+----------------+|product_id_trans|+----------------+| 766.0|| 183.0|+----------------+only showing top 2 rows"""

下面曾经显示了我们在以前的"train" Dataframe中成功的添加了一个转化后的列“product_id_trans”，("Train1" Dataframe)。

8. 选择特征来构建机器学习模型

首先，我们需求从pyspark.ml.feature导入RFormula；然后，我们需求在这个公式中指定依赖和独立的列；我们还必须为为features列和label列指定称号。

from pyspark.ml.feature import RFormulaformula = RFormula(formula="Purchase ~ Age+ Occupation +City_Category+Stay_In_Current_City_Years+Product_Category_1+Product_Category_2+ Gender", featuresCol="features",labelCol="label")

在创建了这个公式之后，我们需求将这个公式运用到我们的Train1上，并经过这个公式转换Train1,Test1。让我们看看如何做到这一点，在拟合变换train1之后，

t1 = formula.fit(Train1)train1 = t1.transform(Train1)test1 = t1.transform(Test1)train1.show(2)"""+-------+----------+------+----+----------+-------------+--------------------------+--------------+------------------+------------------+------------------+--------+----------------+--------------------+-------+|User_ID|Product_ID|Gender| Age|Occupation|City_Category|Stay_In_Current_City_Years|Marital_Status|Product_Category_1|Product_Category_2|Product_Category_3|Purchase|product_id_trans| features| label|+-------+----------+------+----+----------+-------------+--------------------------+--------------+------------------+------------------+------------------+--------+----------------+--------------------+-------+|1000001| P00069042| F|0-17| 10| A| 2| 0| 3| -1| -1| 8370| 766.0|(16,[6,10,13,14],...| 8370.0||1000001| P00248942| F|0-17| 10| A| 2| 0| 1| 6| 14| 15200| 183.0|(16,[6,10,13,14],...|15200.0|+-------+----------+------+----+----------+-------------+--------------------------+--------------+------------------+------------------+------------------+--------+----------------+--------------------+-------+only showing top 2 rows"""

在运用了这个公式之后，我们可以看到train1和test1有两个额外的列，称为features和label，并对我们在公式中指定的列停止标记(featuresCol= features和labelCol= label)。直观上，train1和test1中的features列中的一切分类变量都被转换为数值，数值变量与之前运用ML时相反。我们还可以查看train1和test1中的列特性和标签。

train1.select('features').show(2)"""+--------------------+| features|+--------------------+|(16,[6,10,13,14],...||(16,[6,10,13,14],...|+--------------------+only showing top 2 rows"""train1.select('label').show(2)"""+-------+| label|+-------+| 8370.0||15200.0|+-------+only showing top 2 rows"""

9. 建立机器学习模型

在运用RFormula和转换Dataframe之后，我们如今需求根据这些数据开发机器学习模型。我想为这个义务运用一个随机森林回归。让我们导入一个在pyspark.ml中定义的随机森林回归器。然后建立一个叫做rf的模型。我将运用随机森林算法的默许参数。

from pyspark.ml.regression import RandomForestRegressorrf = RandomForestRegressor

在创建一个模型rf之后，我们需求将train1数据划分为train_cv和test_cv停止交叉验证。这里，我们将train1数据区域划分为train_cv的70%和test_cv的30%。

(train_cv, test_cv) = train1.randomSplit([0.7, 0.3])

在train_cv上建立模型，在test_cv上停止预测。结果将保存在predictions中。

model1 = rf.fit(train_cv)predictions = model1.transform(test_cv)

10. 模型效果评价

让我们评价对test_cv的预测，看看rmse和mse是多少。

为了评价模型，我们需求从pyspark.ml.evaluation中导入RegressionEvaluator。我们必须为此创建一个对象。有一种方法叫 evaluate for evaluator ，它对模型求值。我们需求为此指定度量标准。

from pyspark.ml.evaluation import RegressionEvaluatorevaluator = RegressionEvaluatormse = evaluator.evaluate(predictions,{evaluator.metricName:"mse" })import numpy as npnp.sqrt(mse), mse"""(3832.4796474051345, 14687900.247774584)"""

经过计算，我们可以看到我们的rmse是3827.767295494888。

如今，我们将在一切的train1数据集上再次训练一个模型。

model = rf.fit(train1)predictions1 = model.transform(test1)

预测之后，我们得到测试集预测结果，并将其保存成csv文件。

df = predictions1.selectExpr("User_ID as User_ID", "Product_ID as Product_ID", 'prediction as Purchase')df.toPandas.to_csv('./BlackFriday/submission.csv')

写入csv文件后(submission.csv)。我们可以上传我们的第一个处理方案来查看分数，我得到的分数是3844.20920145983。

总结

在本文中，我以一个真实案例引见了PySpark建模流程。这只是本系列文章的末尾。在接上去的几周，我将继续分享PySpark运用的教程。同时，假如你有任何成绩，或者你想对我要讲的内容提出任何建议，欢迎留言。

（*本文为AI科技大本营转载文章，转载请联络原作者）

◆

◆

[attach]259062[/attach]

作者: 小莎莉 时间: 2019-11-14 21:38
边撸边过

作者: 我是张学友 时间: 2019-11-15 20:51
老哥，这波稳

作者: 肖肖wenwen 时间: 2019-11-16 22:34
啥玩应呀

欢迎光临智客公社 (http://bbs.cnaiplus.com/)