详解数据发掘的技术、工具与用例

公平的天使 · 2021-5-27 15:24:03

【51CTO.com快译】近十年来，随着计算机处理才能和速度的分明提高，我们逐渐可以从繁琐且耗时的手动式数据分析，转变成为疾速便捷的自动化方法。面对被搜集到的数据集日趋增长，可以发现的信息相关性也日益复杂，目前各大批发商、银行、制造商、医疗保健公司，都在经过数据发掘技术，在发现价格变化、促销策略、用户偏好、消费习气、以及支付风险等方面，针对业务模型、支出、运营、以及客户关系产生深远的影响。不过，随着各个公司可以获取数据才能的加强，它们会碰到如何充分应用好海量的结构化与非结构化数据，促进业务增长等新成绩。而这些往往需求数据迷信家的协助与完成。
什么是数据发掘?

从业务角度而言，我们将分析大数据，发现商业智能，协助公司处理理想成绩，减轻风险，以及抓住新机遇的过程，统称为数据发掘。而在计算机迷信中，它是在大量数据中，发理想用的形式、及其互相关系的过程。它通常触及到将统计学、人工智能(AI)工具、以及数据库管理相结合，经过对大型数据集予以分析，查找潜藏的异常状况，发现数据形式与相关性，将原始数据转化为适用信息，进而完成结果预测。
数据发掘过程的基本步骤

1. 搜集数据，将其加载到数据仓库中。
2. 在本地服务器或云端，存储与管理数据。
3. 业务分析师、管理团队和IT专业人员经过访问数据，以确定该如何规整数据。
4. 运用软件根据特定的需求，对数据停止排序。
5. 以图形或表格等方式，向最终用户共享或展现数据。
为了及时获取牢靠的分析结果，我们通常需求经过如下六个步骤，对数据停止结构化：
1. 业务了解
片面了解当前的业务状况、项目的次要目的、以及成功的标准等方面。
2. 数据了解
确定处理成绩所需的数据，并从一切可用来源搜集数据。
3. 数据预备
为满足业务需求，预备适当的数据格式，防备数据出现丢失或反复等质量成绩。
4. 建模
运用算法，辨认出数据中的潜在形式。
5. 评价
评价给定模型所产生的效果与业务目的之间的差距。为了获得最佳结果，我们通常需求一个迭代的过程，来找到最佳算法。
6. 部署
将输入的结果提供给决策者。
数据发掘的技术

目前，企业可以运用如下多种数据发掘技术，来从原始数据中获取有价值的洞见：
1.形式跟踪

形式跟踪是数据发掘的一项基本技术。它旨在经过辨认和监视数据中的趋向或形式，以对业务成果构成智能推断。例如，企业可以用它来辨认销售数据的发展趋向。假如发现某种产品在某些特定人群中的销售状况，要好于其他产品，那么该企业便可以据此来创建相似的产品或服务，甚至只是简单地为此类人群添加原始产品的库存。
2.数据清算和预备

作为数据发掘过程中的一个重要环节，我们必须对原始数据停止清算和格式化，以用于各种后续的分析。详细而言，数据的清算和预备工作包含了：数据建模，转换，迁移，集成和聚合等各种元素。这是了解数据基本特征和属性，进而确定其最佳用途的必要步骤。
3.分类

基于分类的数据发掘技术，次要触及到分析各种类型数据之间的关联属性。一旦确定了数据类型的关键特征，企业便可以对它们停止分类。企业可以据此断定是该保护，还是该删除某些个人身份信息。
4.异常值(Outlier)检测

异常值检测可被用于辨认数据集中的异常状况。企业在发现数据中异常值后，可以经过防备此类事情的发生，以顺利完成业务目的。例如，信誉卡系统在某个特定时段出现运用和买卖的高峰，那么企业便可以经过分析了解到，能够是由于“大促”所致，并为将来的此类活动做好资源上的事前部署与预备。
5.关联

关联是一种与统计学相关的数据发掘技术。它旨在建立某些数据与其他数据、或数据驱动型事情的联络。它与机器学习中的“共现(co-occurrence)”概念相似，即：某个基于数据的事情的发生概率，是由另一个事情的存在性所标识的。例如，用户购买汉堡这一行为，往往会伴随着购买薯片的能够性。两者之间有着较强的关联性，却又不是相对的伴生关系。
6.聚类

聚类是一种依托可视化方法，来了解数据的分析技术。聚类机制运用图形或颜色，来显示数据在不同类别目的下的分布状况。经过图方式的聚类分析，用户可以直观地获悉数据随业务目的发展的趋向。
7.回归

作为一种简单的白盒技术，回归技术可被用于辨认出，数据集中变量之间的因果关系、或相关性质。它在数据建模和预测等方面非常适用。
8.顺序形式

此类数据发掘技术关注于发现和发掘一系列顺序发生的事情，因此常被用于事务性的数据环境中。例如，它可以预测某个顾客在最后购买了某种样式的鞋后，最有能够去购买哪些相配的服装。顺序形式可以协助企业向客户引荐并销售其他增值项产品。
9.预测

预测分析是指在当前或历史的数据中，对发现到的形式停止扩展，以便企业根据现有数据，洞察到即将发生的趋向。我们既可以运用简单的算法，又可以运用高级的机器学习和人工智能来完成预测分析。
10.决策树

作为一种特定类型的预测模型，决策树可以让企业有效地提取所需的数据。从技术上说，决策树属于一种极其简单的“白盒”类机器学习技术。而从效果上说，决策树可以运用户清楚地了解到，输入数据是如何影响结果的。当有多个决策树模型被组合在一同时，它们将创建所谓随机森林的预测分析模型。由于输入并不总能被随便地猜测其输入结果，因此复杂的随机森林模型常被视为“黑盒”类机器学习技术。当然，在大多数状况下，相比单纯地运用决策树，集成建模的基本方式要更为准确一些。
11.神经网络

作为一种特定类型的机器学习模型，神经网络通常可以与AI、以及深度学习协同运用。由于该网络具有相似于人脑中神经元的不同功能层，因此它被誉为目前最准确的机器学习模型之一。
12.可视化

数据可视化可以在数据发掘的过程中，为用户提供可查看到的数据视图。目前，数据可视化可用于实时数据流的传输场景中，以不同的颜色、动态地展现数据中的不同趋向和形式。企业不只可以运用统计模型中的数值结果，还可以用基于不同目的的仪表板，来可视化地突显数据中的形式。
13.统计技术

作为数据发掘过程的核心，统计技术基于统计的概念，应用不同的分析模型，产生适用于特定业务目的的数值。例如，神经网络可以运用基于不同权重和度量的复杂统计信息，来确定被输入到图像辨认系统中的图片上，到底是狗、还是猫。
14.长时记忆处理(Long-term Memory Processing)

长时记忆处理是指可以长工夫分析数据的才能。那些存储在数据仓库中的历史数据可被用于此目的。企业需求经过长时分析，来辨认出本来难以检测到的形式。例如，经过分析过去几年的人员流失状况，企业可以找到能够导致账务恶化的蛛丝马迹。
15.数据仓库

从传统上说，数据仓库是将结构化的数据，存储在关系型数据库管理系统中，以便对其停止商业智能化分析、报告，并提供基本的仪表板显示。目前，业界有基于云端的数据仓库、以及半结构化和非结构化的数据仓库(如Hadoop)。过去，数据仓库次要处理的是历史数据。如今，它也可以应用各种古代化技术与方法，实时地提供对于数据的深化分析。
16.机器学习与人工智能

诸如深度学习之类的高级机器学习方式，在处理大规模的数据时，可以提供较高准确性的预测。因此，它们可以被用在实施AI过程中的数据处理，其中包括：计算机视觉、语音辨认、以及运用自然言语处理的复杂文本分析等。此类数据发掘技术有助于辨认半结构化和非结构化的数据价值。
数据发掘的重要性

挑选并滤除数据中各种混杂与反复性“噪声”。
辨认相关数据，并用其评价能够出现的结果。
加快企业做出明智决策的过程。

数据发掘的优势

可协助企业获取基于知识(knowledge-based)的信息。
可以被部署并实施在新的或既有的平台上。
可协助企业在消费和运营中按需停止调整。
促进趋向和行为的自动化预测，以及隐藏形式的自动发现。
相比其他统计数据类型的运用，愈加经济高效。
有助于改进决策的过程。
作为一个疾速的过程，可以让用户轻松地在更少的工夫内分析大量数据。

十种数据发掘工具

由于数据发掘过程是在数据被获取后立刻执行的，因此找到那些可以针对不同数据结构停止分类、分析与发掘的工具，是至关重要的。下面，让我们来讨论十种业界常用的发掘工具。
1. Oracle Data Mining

Oracle Data Mining(也称为ODM)是Oracle高级分析数据库(Advanced Analytics Database)的一个模块。该数据发掘工具既可以方便数据分析师生成详细的数据见解，并做出预测;又可以协助辨认到交叉销售(Cross-sells)的机会，开发出用户画像(profiles)，并最终预测用户的行为。
2. Rapid Miner

由Java言语编写的Rapid Miner，是目前最好的预测分析系统之一。它可以为深度学习、文本发掘、机器学习和预测分析，提供一套集成化的环境。其系列产品可以被用来构建全新的数据发掘过程，以及执行预测性的设置分析。
3. Orange Data Mining

作为可用于机器学习和数据发掘的完美软件套件，Orange Data Mining经过基于组件的方式，来协助完成数据的可视化。它的组件常被称为“widgets”，其中包括各种预处理、数据可视化、算法评价、以及预测建模等部件。它们可以协助完成：显示数据表，选择不同的功能，读取数据，训练预测变量，比较学习算法，以及可视化数据元素等服务。
4. Weka

由Java言语编写的Weka，经过提供GUI，以方便用户轻松地访问其一切功能。开发者可以在其图形化的界面中执行诸如：预处理、分类、回归、聚类、以及可视化等各种数据发掘义务。而作为一款开源的机器学习软件，Weka为各种义务内置并提供了大量可用于数据发掘的机器学习算法。因此，您无需编写任何代码，即可疾速地验证本人的数据猜测，并部署出相应的模型。
5. KNIME

基于模块化数据管道的KNIME，是由KNIME AG开发的最佳数据分析与报告的集成化平台。它不但收费开源，而且带有各种机器学习与数据发掘的相关组件。其直观的界面，可方便用户创建从建模到消费环境的端到端式数据迷信工作流。作为一个通用的可扩展平台，KNIME带有弱小的扩展和集成功能，可以经过各种高级算法，来处理复杂的数据类型。由于KNIME的不同预构建组件，可以在无需输入任何代码的状况下，完成疾速建模。因此，数据迷信家可以用它来创建诸如：金融行业常用的信誉评分系统等，以完成业务智能与分析的运用与服务。
6. Sisense

作为一款非常适用的业务智能(BI)软件，Sisense可以根据不同企业的报告目的，展开数据处理与发掘，并可以对大型或分散的数据集，采用仪表板的方式，予以分析和可视化。它可以将各种来源的数据经过组合，构建出公共存储库，进而生成完善且丰富的数据报告，以供各个部门享用。Sisense经过提供具有拖放功能的小部件，以方便非技术类型的用户设计出饼图、折线图、以及条状图。用户只需单击，便可查看到详细信息和数据全貌。
7. Dundas

作为一款出色的仪表板、报告和数据分析类工具，Dundas可以经过疾速的集成方式，提供美观的表格、图表和图形，不受限制的数据转换形式，以及牢靠的洞见。Dundas BI可以以特定的方式，将数据放入已定义明白的结构中，以简化用户的后续处理。同时，它经过各种关系型方法，方便用户构建多维的分析，并关注那些业务关键性(business-critical)的事项。此外，由它生成的报告，可以在降低成本的同时，消弭对于其他附加软件的依赖。
8. Intetsoft

作为一种分析仪表板和报告类工具，Intetsoft可以提供针对数据报告与视图的迭代式开发，并生成像素级的完美报告。它可以疾速、灵敏地转换各种数据来源。
9. Qlik

作为一种数据发掘和可视化工具，Qlik既可以提供仪表板，又可以支持多种数据源和文件类型。此外，它的丰富功能还包括：经过拖放界面可完成灵敏的交互式数据可视化，即时呼应各种交互和更改，支持多种数据源与文件类型，可轻松、安全地保护各种设备上的数据和内容，允许以集中式共享运用与分析的故事线。
10. MonkeyLearn

作为一个专门研讨文本发掘的机器学习平台，MonkeyLearn经过敌对的用户界面，完成了与其他工具的轻松集成，并经过对数据的实时发掘，基于预训练的文本发掘模型，展开目的情感分析，或经过构建定制化的处理方案，以满足更为详细的业务需求。从检测主题、情感和意图，到提取关键字和命名实体，MonkeyLearn可以支持各种数据发掘义务。此外，MonkeyLearn的文本发掘功能还可以被用于，在客户支持的场景中，自动停止义务单的标记与路由，自动检测社交媒体中的负面反馈，以及提供细粒度的洞见，进而做出更好的决策。
数据发掘的典型用例

下面，我们经过各个行业中的典型用例，来讨论数据发掘是如何改变业务策略设计，以及预测业务走向的。
市场

数据发掘可用于检索日积月累的数据库，并改善当前的市场细分。经过分析诸如客户年龄、性别、口味等参数之间的关系，我们可以预测其行为，以推出个性化的用户忠实度计划。而在市场营销活动中，数据发掘还可以预测哪些用户能够会取消已订阅的服务，获悉他们的搜索偏好，进而为完成更高的转化率，而定制邮件内容与列表。
银行业

为了更好地获悉市场上存在的风险，银行业可以将数据发掘运用到信誉等级、以及智能反欺诈系统中，以分析卡密买卖、购买形式、以及客户财务数据等方面。经过对银行APP的数据发掘，它们还可以更深化地了解用户的在线习气和偏好信息，研讨销售渠道的绩效，以及合规管理的义务，进而提高其营销活动的报答。
教育

教育工作者可以在访问先生数据的基础上，经过数据发掘，来预测他们的知识掌握程度，并针对某些成绩较差的先生，提供额外的补习与关注。
电子商务

诸如亚马逊之类的知名电商平台，经过运用数据发掘技术，不但可以完成引荐销售(Up-sells)和交叉销售，还可以吸引更多的顾客访问其平台。
批发

超市既可以运用结合采购的形式(joint purchasing pattern)，来辨认各个产品之间的关联，进而决议如何将它们放置在过道和货架上;又可以经过数据发掘，在结账队列中检测出，哪些商品最受客户的喜欢，以便提高进货量。
服务供应商

手机和公用事业等服务提供商可以运用数据发掘技术，来分析账单的详细信息，与客户服务的互动，并根据赞扬的历史记录，为每个客户分配一个概率分值，以便提供定制化的激励计划，或者判别其流失的能够性。
医药业

经过数据发掘，医院和医生可以掌握患者的片面信息(包括病历、体检报告和治疗形式等)，并据此制定出愈加准确且有效的诊疗方案。经过辨认风险，预测人群中的疾病传播、以及预测住院工夫，他们还可以更具成本效益地管理公共卫生资源。而医疗机构则可以经过数据发掘的优势，及时发现各种欺诈和违规行为，加强与患者之间的联络，进而更好地满足他们的需求。
保险

保险公司可以经过数据发掘，来根据盈利目的对其产品停止综合定价，进而推行给新、老客户。
制造业

借助数据发掘，制造商可以预测其消费资源的损耗速度，并能经过预防性的维护，最大程度地减少停机工夫。
犯罪调查

经过数据发掘与分析，治安机构可以预测犯罪多发的地点与时段，提早部署警力。
电视和广播

仰仗着针对网络运用和实时数据的发掘，在线电视(如IPTV)和广播可以实时搜集和分析来自不同频道与节目的观看与收听信息，实时了解观众与听众的兴味爱好，在更好地了解其习气与行为的基础上，更准确地定位潜在客户，并完成个性化的推送。
不同行业运用数据发掘的成功案例：

拜耳协助农民完成可持续的粮食消费

在农业耕种过程中，那些毁坏农作物的杂草不断是困扰农民的难题。虽然农民们可以运用窄谱除草剂，在尽能够减少不良副作用的前提下，有效地杀死田间的杂草。但是，他们首先需求准确地辨认出田间杂草的类型。拜耳数字农业运用Talend实时大数据，开发出了WEEDSCOUT运用。在农民们完成了收费下载与安装后，该APP运用机器学习和人工智能的方式，将拜耳数据库中的杂草图片，与农民拍摄到的杂草照片停止婚配，以便为他们的选种，作物保护产品，以及收割机遇等环节，给出愈加准确地预测与建议。

法航荷航满足客户游览的偏好要求

该航空公司运用数据发掘技术，经过将游览搜索、预订、以及航班运营中的数据，与互联网、社交媒体、呼叫中心、以及候机厅的互动相整合，进而创建了360度的客户视图。它们仰仗着这种深入的客户洞察力，创建了个性化的游览体验。

Groupon协调营销活动

每天，Groupon都需务实时处理超过TB量级的原始数据，并将此类信息存储在各种数据库系统之中。而数据发掘技术使得Groupon可以实时地分析海量的客户数据，将营销活动与客户的偏好愈加严密地结合起来，并协助公司辨认出业务发展的趋向。

达美乐打造完美的购买体验

作为世界上最大的比萨公司，达美乐经过各种渠道(包括：短信、社交媒体、以及Amazon Echo)搜集着85,000个结构化和非结构化的数据源，其中包括全球销售点系统和26个供应链中心。这种洞察才能在提高其业务绩效的同时，在各个销售点之间完成一对一的客户购买体验。
总的说来，您可以根据本人的实践需求，运用数据发掘技术，来处理诸如：添加营收，了解客户群的特征和偏好，获取新的客户，改善交叉销售和引荐销售，留存客户并提高忠实度，经过营销活动来添加投资报答率，检测与发现欺诈行为，辨认信贷风险，监控运营绩效等业务成绩与需求。
原文标题：Data Mining: Use Cases, Benefits, and Tools，作者：Ekaterina Novoseltseva
【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】

dreamy77 · 2021-5-27 21:47:50

沙发位出租，有意请联系电话：13888888888

信大少女 · 2021-5-28 21:45:17

lz也多多分享一下感受，想换工作了

盼盼小妹 · 2021-5-29 13:57:18

珍爱生命，果断回帖。

		自动登录	找回密码
密码			立即注册

详解数据发掘的技术、工具与用例

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们