数据挖掘的步骤有哪些?——数字化转型网数据专题
数据挖掘的步骤一:明确目标在实施数据挖掘之前,你必须明白自己的目标,即需要通过挖掘去解决什么样的问题。
比如在餐饮行业,可能都会存在这方面的痛点,即如何调整中餐或晚餐的当班人数,以及为下一餐准备多少食材比较合理。如果解决了这个问题,那么对于餐厅来说既可以降低人工成本,又可以避免食材的浪费。
数据挖掘的步骤二十大最新报道:数据搜集
当你明确自己的目标或需要解决的问题后,下一步就需要准备数据,准备的数据即可以影响到这些问题的解决办法,这一步成为数据搜集过程。数据搜集过程尤为重要,其决定了后期工作进展的顺利程度。
比如和餐饮相关的数据:
食材数据:食材名称,食材品类,采购时间,采购数量,采购金额,当天剩余量等。
经营数据:经营时间,预定时间,预定台数,预定人数,上座台数,上座人数等。
其他数据:天气情况,交通便捷性,竞争对手动向,是否为节假日,用户口碑等。
常用爬虫方法来搜集数据。
数据挖掘的步骤三:数据清洗
通过数据搜集得到的相关数据必须保证“干净”,因为数据的质量高低将影响最终结果的准确性。通常数据会有以下几个方面影响数据的“干净”。
缺失值:由于个人隐私或设备故障导致某些观测在维度上的漏缺,一般称为缺失值。缺失值的存在可能会导致模型结果的错误,所以针对缺失值可以考虑删除法、替换法、插值法解决。
异常值:异常值一般指远离正常样本的观测点,它们的存在同样会影响模型的准确性,故可以考虑删除法或单独处理法。
数据的不一致性:主要是由于不同的数据源或系统并发不同步导致的数据不一致性,例如两个数据源中数据单位的不一致(一个以元为单位,一个以万元为单位);系统并发不同步导致一张电影票被多个用户购买。
量纲的影响:由于某些模型容易受到不同量纲的影响,因此需要通过数据的标准化方法将不同量纲的数据进行统一处理,如将数据集都压缩至0-1的范围。
维度灾难:当采集的数据包含上百乃至成千上万的变量时,往往会提高模型的复杂度,进而影响模型的运行效率,故需要采用方差分析法,相关系数法,递归特征消除法,主成分分析法等手段实现数据的特征提取或降维。
数据挖掘的步骤四:构建模型
据不完全统计,建模前的数据准备将占整个数据挖掘流程80%左右的时间。接下来,在数据保证“干净”的前提下,需要考虑以什么样的模型能进行建模。
分类模型:逻辑回归,KNN,决策树等。
回归模型:线性回归,支持向量回归,岭回归等。
以上模型都是传统机器学习算法,当然,还可以通过神经网络实现分类或回归。
数据挖掘的步骤五:模型评估
到此阶段,已经完成了数据挖掘流程中的绝大部分工作。并且通过数据得到解决问题的多个方案(模型),接下来要做的就是从这些模型中挑选出最佳的模型,主要目的就是让这个最佳的模型能够更好地反映数据的真实性。例如,对于预测或分类模型,即使在数训练集中的表现很好,但在测试集中结果一般,说明该模型存在过拟合现象。
数据挖掘的步骤六:应用部署
通常,模型的构建和评估工作的完成,并不代表整个数据挖掘流程的结束,往往还需要最后的应用部署。尽管模型的构建和评估视数据挖掘工程师所擅长的,但是这些挖掘出来的模式或规律是给真正的业务方或客户服务的,故需要将这些模式重新部署到系统中。
数据挖掘的步骤有哪些? 没写完吧,等楼主更新哦~ 没写完吧,等楼主更新哦~ 在撸一遍。。。
页:
[1]