找回密码
 立即注册
搜索

详解数据发掘的技术、工具与用例


【51CTO.com快译】近十年来,随着计算机处理才能和速度的分明提高,我们逐渐可以从繁琐且耗时的手动式数据分析,转变成为疾速便捷的自动化方法。面对被搜集到的数据集日趋增长,可以发现的信息相关性也日益复杂,目前各大批发商、银行、制造商、医疗保健公司,都在经过数据发掘技术,在发现价格变化、促销策略、用户偏好、消费习气、以及支付风险等方面,针对业务模型、支出、运营、以及客户关系产生深远的影响。不过,随着各个公司可以获取数据才能的加强,它们会碰到如何充分应用好海量的结构化与非结构化数据,促进业务增长等新成绩。而这些往往需求数据迷信家的协助与完成。
什么是数据发掘?

从业务角度而言,我们将分析大数据,发现商业智能,协助公司处理理想成绩,减轻风险,以及抓住新机遇的过程,统称为数据发掘。而在计算机迷信中,它是在大量数据中,发理想用的形式、及其互相关系的过程。它通常触及到将统计学、人工智能(AI)工具、以及数据库管理相结合,经过对大型数据集予以分析,查找潜藏的异常状况,发现数据形式与相关性,将原始数据转化为适用信息,进而完成结果预测。
数据发掘过程的基本步骤

1. 搜集数据,将其加载到数据仓库中。
2. 在本地服务器或云端,存储与管理数据。
3. 业务分析师、管理团队和IT专业人员经过访问数据,以确定该如何规整数据。
4. 运用软件根据特定的需求,对数据停止排序。
5. 以图形或表格等方式,向最终用户共享或展现数据。
为了及时获取牢靠的分析结果,我们通常需求经过如下六个步骤,对数据停止结构化:
1. 业务了解
片面了解当前的业务状况、项目的次要目的、以及成功的标准等方面。
2. 数据了解
确定处理成绩所需的数据,并从一切可用来源搜集数据。
3. 数据预备
为满足业务需求,预备适当的数据格式,防备数据出现丢失或反复等质量成绩。
4. 建模
运用算法,辨认出数据中的潜在形式。
5. 评价
评价给定模型所产生的效果与业务目的之间的差距。为了获得最佳结果,我们通常需求一个迭代的过程,来找到最佳算法。
6. 部署
将输入的结果提供给决策者。
数据发掘的技术

目前,企业可以运用如下多种数据发掘技术,来从原始数据中获取有价值的洞见:
1.形式跟踪

形式跟踪是数据发掘的一项基本技术。它旨在经过辨认和监视数据中的趋向或形式,以对业务成果构成智能推断。例如,企业可以用它来辨认销售数据的发展趋向。假如发现某种产品在某些特定人群中的销售状况,要好于其他产品,那么该企业便可以据此来创建相似的产品或服务,甚至只是简单地为此类人群添加原始产品的库存。
2.数据清算和预备

作为数据发掘过程中的一个重要环节,我们必须对原始数据停止清算和格式化,以用于各种后续的分析。详细而言,数据的清算和预备工作包含了:数据建模,转换,迁移,集成和聚合等各种元素。这是了解数据基本特征和属性,进而确定其最佳用途的必要步骤。
3.分类

基于分类的数据发掘技术,次要触及到分析各种类型数据之间的关联属性。一旦确定了数据类型的关键特征,企业便可以对它们停止分类。企业可以据此断定是该保护,还是该删除某些个人身份信息。
4.异常值(Outlier)检测

异常值检测可被用于辨认数据集中的异常状况。企业在发现数据中异常值后,可以经过防备此类事情的发生,以顺利完成业务目的。例如,信誉卡系统在某个特定时段出现运用和买卖的高峰,那么企业便可以经过分析了解到,能够是由于“大促”所致,并为将来的此类活动做好资源上的事前部署与预备。
5.关联

关联是一种与统计学相关的数据发掘技术。它旨在建立某些数据与其他数据、或数据驱动型事情的联络。它与机器学习中的“共现(co-occurrence)”概念相似,即:某个基于数据的事情的发生概率,是由另一个事情的存在性所标识的。例如,用户购买汉堡这一行为,往往会伴随着购买薯片的能够性。两者之间有着较强的关联性,却又不是相对的伴生关系。
6.聚类

聚类是一种依托可视化方法,来了解数据的分析技术。聚类机制运用图形或颜色,来显示数据在不同类别目的下的分布状况。经过图方式的聚类分析,用户可以直观地获悉数据随业务目的发展的趋向。
7.回归

作为一种简单的白盒技术,回归技术可被用于辨认出,数据集中变量之间的因果关系、或相关性质。它在数据建模和预测等方面非常适用。
8.顺序形式

此类数据发掘技术关注于发现和发掘一系列顺序发生的事情,因此常被用于事务性的数据环境中。例如,它可以预测某个顾客在最后购买了某种样式的鞋后,最有能够去购买哪些相配的服装。顺序形式可以协助企业向客户引荐并销售其他增值项产品。
9.预测

预测分析是指在当前或历史的数据中,对发现到的形式停止扩展,以便企业根据现有数据,洞察到即将发生的趋向。我们既可以运用简单的算法,又可以运用高级的机器学习和人工智能来完成预测分析。
10.决策树

作为一种特定类型的预测模型,决策树可以让企业有效地提取所需的数据。从技术上说,决策树属于一种极其简单的“白盒”类机器学习技术。而从效果上说,决策树可以运用户清楚地了解到,输入数据是如何影响结果的。当有多个决策树模型被组合在一同时,它们将创建所谓随机森林的预测分析模型。由于输入并不总能被随便地猜测其输入结果,因此复杂的随机森林模型常被视为“黑盒”类机器学习技术。当然,在大多数状况下,相比单纯地运用决策树,集成建模的基本方式要更为准确一些。
11.神经网络

作为一种特定类型的机器学习模型,神经网络通常可以与AI、以及深度学习协同运用。由于该网络具有相似于人脑中神经元的不同功能层,因此它被誉为目前最准确的机器学习模型之一。
12.可视化

数据可视化可以在数据发掘的过程中,为用户提供可查看到的数据视图。目前,数据可视化可用于实时数据流的传输场景中,以不同的颜色、动态地展现数据中的不同趋向和形式。企业不只可以运用统计模型中的数值结果,还可以用基于不同目的的仪表板,来可视化地突显数据中的形式。
13.统计技术

作为数据发掘过程的核心,统计技术基于统计的概念,应用不同的分析模型,产生适用于特定业务目的的数值。例如,神经网络可以运用基于不同权重和度量的复杂统计信息,来确定被输入到图像辨认系统中的图片上,到底是狗、还是猫。
14.长时记忆处理(Long-term Memory Processing)

长时记忆处理是指可以长工夫分析数据的才能。那些存储在数据仓库中的历史数据可被用于此目的。企业需求经过长时分析,来辨认出本来难以检测到的形式。例如,经过分析过去几年的人员流失状况,企业可以找到能够导致账务恶化的蛛丝马迹。
15.数据仓库

从传统上说,数据仓库是将结构化的数据,存储在关系型数据库管理系统中,以便对其停止商业智能化分析、报告,并提供基本的仪表板显示。目前,业界有基于云端的数据仓库、以及半结构化和非结构化的数据仓库(如Hadoop)。过去,数据仓库次要处理的是历史数据。如今,它也可以应用各种古代化技术与方法,实时地提供对于数据的深化分析。
16.机器学习与人工智能

诸如深度学习之类的高级机器学习方式,在处理大规模的数据时,可以提供较高准确性的预测。因此,它们可以被用在实施AI过程中的数据处理,其中包括:计算机视觉、语音辨认、以及运用自然言语处理的复杂文本分析等。此类数据发掘技术有助于辨认半结构化和非结构化的数据价值。
数据发掘的重要性


  • 挑选并滤除数据中各种混杂与反复性“噪声”。
  • 辨认相关数据,并用其评价能够出现的结果。
  • 加快企业做出明智决策的过程。
数据发掘的优势


  • 可协助企业获取基于知识(knowledge-based)的信息。
  • 可以被部署并实施在新的或既有的平台上。
  • 可协助企业在消费和运营中按需停止调整。
  • 促进趋向和行为的自动化预测,以及隐藏形式的自动发现。
  • 相比其他统计数据类型的运用,愈加经济高效。
  • 有助于改进决策的过程。
  • 作为一个疾速的过程,可以让用户轻松地在更少的工夫内分析大量数据。
十种数据发掘工具

由于数据发掘过程是在数据被获取后立刻执行的,因此找到那些可以针对不同数据结构停止分类、分析与发掘的工具,是至关重要的。下面,让我们来讨论十种业界常用的发掘工具。
1. Oracle Data Mining

Oracle Data Mining(也称为ODM)是Oracle高级分析数据库(Advanced Analytics Database)的一个模块。该数据发掘工具既可以方便数据分析师生成详细的数据见解,并做出预测;又可以协助辨认到交叉销售(Cross-sells)的机会,开发出用户画像(profiles),并最终预测用户的行为。
2. Rapid Miner

由Java言语编写的Rapid Miner,是目前最好的预测分析系统之一。它可以为深度学习、文本发掘、机器学习和预测分析,提供一套集成化的环境。其系列产品可以被用来构建全新的数据发掘过程,以及执行预测性的设置分析。
3. Orange Data Mining

作为可用于机器学习和数据发掘的完美软件套件,Orange Data Mining经过基于组件的方式,来协助完成数据的可视化。它的组件常被称为“widgets”,其中包括各种预处理、数据可视化、算法评价、以及预测建模等部件。它们可以协助完成:显示数据表,选择不同的功能,读取数据,训练预测变量,比较学习算法,以及可视化数据元素等服务。
4. Weka

由Java言语编写的Weka,经过提供GUI,以方便用户轻松地访问其一切功能。开发者可以在其图形化的界面中执行诸如:预处理、分类、回归、聚类、以及可视化等各种数据发掘义务。而作为一款开源的机器学习软件,Weka为各种义务内置并提供了大量可用于数据发掘的机器学习算法。因此,您无需编写任何代码,即可疾速地验证本人的数据猜测,并部署出相应的模型。
5. KNIME

基于模块化数据管道的KNIME,是由KNIME AG开发的最佳数据分析与报告的集成化平台。它不但收费开源,而且带有各种机器学习与数据发掘的相关组件。其直观的界面,可方便用户创建从建模到消费环境的端到端式数据迷信工作流。作为一个通用的可扩展平台,KNIME带有弱小的扩展和集成功能,可以经过各种高级算法,来处理复杂的数据类型。由于KNIME的不同预构建组件,可以在无需输入任何代码的状况下,完成疾速建模。因此,数据迷信家可以用它来创建诸如:金融行业常用的信誉评分系统等,以完成业务智能与分析的运用与服务。
6. Sisense

作为一款非常适用的业务智能(BI)软件,Sisense可以根据不同企业的报告目的,展开数据处理与发掘,并可以对大型或分散的数据集,采用仪表板的方式,予以分析和可视化。它可以将各种来源的数据经过组合,构建出公共存储库,进而生成完善且丰富的数据报告,以供各个部门享用。Sisense经过提供具有拖放功能的小部件,以方便非技术类型的用户设计出饼图、折线图、以及条状图。用户只需单击,便可查看到详细信息和数据全貌。
7. Dundas

作为一款出色的仪表板、报告和数据分析类工具,Dundas可以经过疾速的集成方式,提供美观的表格、图表和图形,不受限制的数据转换形式,以及牢靠的洞见。Dundas BI可以以特定的方式,将数据放入已定义明白的结构中,以简化用户的后续处理。同时,它经过各种关系型方法,方便用户构建多维的分析,并关注那些业务关键性(business-critical)的事项。此外,由它生成的报告,可以在降低成本的同时,消弭对于其他附加软件的依赖。
8. Intetsoft

作为一种分析仪表板和报告类工具,Intetsoft可以提供针对数据报告与视图的迭代式开发,并生成像素级的完美报告。它可以疾速、灵敏地转换各种数据来源。
9. Qlik

作为一种数据发掘和可视化工具,Qlik既可以提供仪表板,又可以支持多种数据源和文件类型。此外,它的丰富功能还包括:经过拖放界面可完成灵敏的交互式数据可视化,即时呼应各种交互和更改,支持多种数据源与文件类型,可轻松、安全地保护各种设备上的数据和内容,允许以集中式共享运用与分析的故事线。
10. MonkeyLearn

作为一个专门研讨文本发掘的机器学习平台,MonkeyLearn经过敌对的用户界面,完成了与其他工具的轻松集成,并经过对数据的实时发掘,基于预训练的文本发掘模型,展开目的情感分析,或经过构建定制化的处理方案,以满足更为详细的业务需求。从检测主题、情感和意图,到提取关键字和命名实体,MonkeyLearn可以支持各种数据发掘义务。此外,MonkeyLearn的文本发掘功能还可以被用于,在客户支持的场景中,自动停止义务单的标记与路由,自动检测社交媒体中的负面反馈,以及提供细粒度的洞见,进而做出更好的决策。
数据发掘的典型用例

下面,我们经过各个行业中的典型用例,来讨论数据发掘是如何改变业务策略设计,以及预测业务走向的。
市场

数据发掘可用于检索日积月累的数据库,并改善当前的市场细分。经过分析诸如客户年龄、性别、口味等参数之间的关系,我们可以预测其行为,以推出个性化的用户忠实度计划。而在市场营销活动中,数据发掘还可以预测哪些用户能够会取消已订阅的服务,获悉他们的搜索偏好,进而为完成更高的转化率,而定制邮件内容与列表。
银行业

为了更好地获悉市场上存在的风险,银行业可以将数据发掘运用到信誉等级、以及智能反欺诈系统中,以分析卡密买卖、购买形式、以及客户财务数据等方面。经过对银行APP的数据发掘,它们还可以更深化地了解用户的在线习气和偏好信息,研讨销售渠道的绩效,以及合规管理的义务,进而提高其营销活动的报答。
教育

教育工作者可以在访问先生数据的基础上,经过数据发掘,来预测他们的知识掌握程度,并针对某些成绩较差的先生,提供额外的补习与关注。
电子商务

诸如亚马逊之类的知名电商平台,经过运用数据发掘技术,不但可以完成引荐销售(Up-sells)和交叉销售,还可以吸引更多的顾客访问其平台。
批发

超市既可以运用结合采购的形式(joint purchasing pattern),来辨认各个产品之间的关联,进而决议如何将它们放置在过道和货架上;又可以经过数据发掘,在结账队列中检测出,哪些商品最受客户的喜欢,以便提高进货量。
服务供应商

手机和公用事业等服务提供商可以运用数据发掘技术,来分析账单的详细信息,与客户服务的互动,并根据赞扬的历史记录,为每个客户分配一个概率分值,以便提供定制化的激励计划,或者判别其流失的能够性。
医药业

经过数据发掘,医院和医生可以掌握患者的片面信息(包括病历、体检报告和治疗形式等),并据此制定出愈加准确且有效的诊疗方案。经过辨认风险,预测人群中的疾病传播、以及预测住院工夫,他们还可以更具成本效益地管理公共卫生资源。而医疗机构则可以经过数据发掘的优势,及时发现各种欺诈和违规行为,加强与患者之间的联络,进而更好地满足他们的需求。
保险

保险公司可以经过数据发掘,来根据盈利目的对其产品停止综合定价,进而推行给新、老客户。
制造业

借助数据发掘,制造商可以预测其消费资源的损耗速度,并能经过预防性的维护,最大程度地减少停机工夫。
犯罪调查

经过数据发掘与分析,治安机构可以预测犯罪多发的地点与时段,提早部署警力。
电视和广播

仰仗着针对网络运用和实时数据的发掘,在线电视(如IPTV)和广播可以实时搜集和分析来自不同频道与节目的观看与收听信息,实时了解观众与听众的兴味爱好,在更好地了解其习气与行为的基础上,更准确地定位潜在客户,并完成个性化的推送。
不同行业运用数据发掘的成功案例:


  • 拜耳协助农民完成可持续的粮食消费
在农业耕种过程中,那些毁坏农作物的杂草不断是困扰农民的难题。虽然农民们可以运用窄谱除草剂,在尽能够减少不良副作用的前提下,有效地杀死田间的杂草。但是,他们首先需求准确地辨认出田间杂草的类型。拜耳数字农业运用Talend实时大数据,开发出了WEEDSCOUT运用。在农民们完成了收费下载与安装后,该APP运用机器学习和人工智能的方式,将拜耳数据库中的杂草图片,与农民拍摄到的杂草照片停止婚配,以便为他们的选种,作物保护产品,以及收割机遇等环节,给出愈加准确地预测与建议。

  • 法航荷航满足客户游览的偏好要求
该航空公司运用数据发掘技术,经过将游览搜索、预订、以及航班运营中的数据,与互联网、社交媒体、呼叫中心、以及候机厅的互动相整合,进而创建了360度的客户视图。它们仰仗着这种深入的客户洞察力,创建了个性化的游览体验。

  • Groupon协调营销活动
每天,Groupon都需务实时处理超过TB量级的原始数据,并将此类信息存储在各种数据库系统之中。而数据发掘技术使得Groupon可以实时地分析海量的客户数据,将营销活动与客户的偏好愈加严密地结合起来,并协助公司辨认出业务发展的趋向。

  • 达美乐打造完美的购买体验
作为世界上最大的比萨公司,达美乐经过各种渠道(包括:短信、社交媒体、以及Amazon Echo)搜集着85,000个结构化和非结构化的数据源,其中包括全球销售点系统和26个供应链中心。这种洞察才能在提高其业务绩效的同时,在各个销售点之间完成一对一的客户购买体验。
总的说来,您可以根据本人的实践需求,运用数据发掘技术,来处理诸如:添加营收,了解客户群的特征和偏好,获取新的客户,改善交叉销售和引荐销售,留存客户并提高忠实度,经过营销活动来添加投资报答率,检测与发现欺诈行为,辨认信贷风险,监控运营绩效等业务成绩与需求。
原文标题:Data Mining: Use Cases, Benefits, and Tools,作者:Ekaterina Novoseltseva
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

dreamy77 2021-5-27 21:47:50 显示全部楼层
沙发位出租,有意请联系电话:13888888888
回复

使用道具 举报

信大少女 2021-5-28 21:45:17 显示全部楼层
lz也多多分享一下感受,想换工作了
回复

使用道具 举报

盼盼小妹 2021-5-29 13:57:18 显示全部楼层
珍爱生命,果断回帖。
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies