苏州10月大数据建模与分析发掘运用实战培训班

残楼听雪 · 2019-8-16 17:16:19

大数据建模与分析发掘运用实战培训班

1.培训简介

大数据建模与分析发掘技术曾经逐渐地运用到新兴互联网企业（如电子商务网站、搜索引擎、社交网站、互联网广告服务提供商等）、银行金融证券企业、电信运营等行业，给这些行业带来了一定的数据价值增值作用。

本次课程面向有一定的数据分析发掘算法基础的工程师，带大家实际大数据分析发掘平台的项目训练，系统地讲解数据预备、数据建模、发掘模型建立、大数据分析与发掘算法运用在业务模型中，结合主流的Hadoop与Spark大数据分析平台架构，完成项目训练。

结合业界运用最广泛的主流大数据平台技术，重点分析基于大数据分析算法与BI技术运用，包括分类算法、聚类算法、预测分析算法、引荐分析模型等在业务中的实际运用，并根据讲师给定的数据集，完成两个基本的日志数据分析发掘系统，以及电商（或内容）引荐系统引擎。

本课程基本的实际环境是Linux集群，JDK1.8， Hadoop 2.7.*，Spark 2.1.*。

学员需求预备的电脑最好是i5及以上CPU，4GB及以上内存，硬盘空间预留50GB（可用移动硬盘），基本的大数据分析平台所依赖的软件包和依赖库等，讲师曾经提早部署在虚拟机镜像（VMware镜像），学员根据讲师的操作义务停止实际。

本课程采用技术原理与项目实战相结合的方式停止教学，在讲授原理的过程中，穿插实践的系统操作，本课程讲师也精心预备的实践的运用案例供学员动手训练。

2.培训目的

1.本课程让学员充分掌握大数据平台技术架构、大数据分析的基本实际、机器学习的常用算法、国内外主流的大数据分析与BI商业智能分析处理方案、以及大数据分析在搜索引擎、广告服务引荐、电商数据分析、金融客户分析方面的运用案例。

2.本课程强调主流的大数据分析发掘算法技术的运用和分析平台的实施，让学员掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实践运用，并用结合实践的消费系统案例停止教学，掌握基于Hadoop大数据平台的数据发掘和数据仓库分布式系统平台运用，以及商业和开源的数据分析产品加上Hadoop平台构成大数据分析平台的运用分析。

3.让学员掌握常见的机器学习算法，深化讲解业界成熟的大数据分析发掘与BI平台的实际运用，并以客户分析系统、日志分析和电商引荐系统为案例，串联常用的数据发掘技术停止运用教学。

3.培训人群

1.大数据分析运用开发工程师

2.大数据分析项目的规划咨询管理人员

3.大数据分析项目的IT项目高管人员

4.大数据分析与发掘处理算法运用工程师

5.大数据分析集群运维工程师

6.大数据分析项目的售前和售后技术支持服务人员

4.工夫地点

2019/10/25 - 2019/10/28

江苏苏州

有疑问可咨询：

13001051273或798947682@qq.com

中科图云小助手微信：TuyunAssistant

更多资讯可关注：

官方公众号：中科图云

服务号：中科图云AICloud

5.培训特征

定制授课+ 实战案例训练+ 互动咨询讨论

（阐明：讲师会提供虚拟机镜像，并把Hadoop，Spark等系统提早部署在虚拟机中，分析发掘平台构建在Hadoop与Spark之上，学员自带笔记本，运转虚拟机，并应用异样的镜像启动多台虚拟机，构建实验集群，镜像会提早给学员）

6.培训内容

两个残缺的项目义务和实际案例（重点）

1.日志分析建模与日志发掘项目实际

a)Hadoop，Spark，并结合ELK技术构建日志分析系统和日志数据仓库

b)互联网微博日志分析系统项目

2.引荐系统项目实际

a)电影数据分析与个性化引荐关联分析项目

b)电商购物篮分析项目

Hadoop，Spark，可结合Oryx分布式集群在个性化引荐和精准营销项目。

项目的阶段性步骤贯穿到三天的培训过程中，第三天完成整个项目的原型

培训内容安排如下：

第一天

业界主流的数据仓库工具和大数据分析发掘工具

1. 业界主流的基于Hadoop和Spark的大数据分析发掘项目处理方案

2. 业界数据仓库与数据分析发掘平台软件工具

3. Hadoop数据仓库工具Hive

4. Spark实时数据仓库工具SparkSQL

5. Hadoop数据分析发掘工具Mahout

6. Spark机器学习与数据分析发掘工具MLlib

7. 大数据分析发掘项目的实施步骤

配置数据仓库工具Hadoop Hive和SparkSQL

部署数据分析发掘工具Hadoop Mahout和Spark MLlib

大数据分析发掘项目的数据集成操作训练

1. 日志数据解析和导入导出到数据仓库的操作训练

2. 从原始搜索数据集中抽取、集成数据，整理后构成规范的数据仓库

3. 数据分析发掘模块从大型的集中式数据仓库中访问数据，一个数据仓库面向一个主题，构建两个数据仓库

4. 同一个数据仓库中的理想表数据，可以给多个不同类型的分析发掘义务调用

5. 去除噪声

项目数据集加载ETL到Hadoop Hive数据仓库并建立多维模型

基于Hadoop的大型数据仓库管理平台—HIVE数据仓库集群的多维分析建模运用实际

6. 基于Hadoop的大型分布式数据仓库内行业中的数据仓库运用案例

7. Hive数据仓库集群的平台体系结构、核心技术分析

8. Hive Server的工作原理、机制与运用

9. Hive数据仓库集群的安装部署与配置优化

10. Hive运用开发技巧

11. Hive SQL分析与运用实际

12. Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧

13. Hive数据仓库报表设计

14. 将原始的日志数据集，经过整理后，加载至Hadoop + Hive数据仓库集群中，用于共享访问

应用HIVE构建大型数据仓库项目的操作训练实际

Spark大数据分析发掘平台实际操作训练

15. Spark大数据分析发掘平台的部署配置

16. Spark数据分析库MLlib的开发部署

17. Spark数据分析发掘示例操作，从Hive表中读取数据并在分布式内存中运转

第二天

聚类分析建模与发掘算法的完成原理和技术运用

18. 聚类分析建模与算法原理及其在Spark MLlib中的完成与运用，包括：

a) Canopy聚类（canopy clustering）

b) K均值算法（K-means clustering）

c) 模糊K均值（Fuzzy K-means clustering）

d) EM聚类，即希冀最大化聚类（Expectation Maximization）

e) 以上算法在Spark MLib中的完成原理和实践场景中的运用案例。

19. Spark聚类分析算法程序示例

基于Spark MLlib的聚类分析算法，完成日志数据集中的用户聚类

分类分析建模与发掘算法的完成原理和技术运用

20. 分类分析建模与算法原理及其在Spark MLlib中的完成与运用，包括：

f) Spark决策树算法完成

g) 逻辑回归算法（logistics regression）

h) 贝叶斯算法（Bayesian与Cbeyes）

i) 支持向量机（Support vector machine）

j) 以上算法在Spark MLlib中的完成原理和实践场景中的运用案例。

21. Spark客户材料分析与给用户贴标签的程序示例

22. Spark完成给商品贴标签的程序示例

23. Spark完成用户行为的自动标签和深度技术

基于Spark MLlib的分类分析算法模型与运用操作

关联分析建模与发掘算法的完成原理和技术运用

24. 预测、引荐分析建模与算法原理及其在Spark MLlib中的完成与运用，包括：

k) Spark频繁形式发掘算法（parallel FP Growth Algorithm）运用

l) Spark关联规则发掘（Apriori）算法及其运用

m) 以上算法在Spark MLib中的完成原理和实践场景中的运用案例。

25. Spark关联分析程序示例

基于Spark MLlib的关联分析操作

第三天

引荐分析发掘模型与算法技术运用

26. 引荐算法原理及其在Spark MLlib中的完成与运用，包括：

a) Spark协同过滤算法程序示例

b) Item-based协同过滤与引荐

c) User-based协同过滤与引荐

d) 交叉销售引荐模型及其完成

引荐分析完成步骤与操作（重点）

回归分析模型与预测算法

27. 应用线性回归（多元回归）完成访问量预测

28. 应用非线性回归预测成交量和访问量的关系

29. 基于R+Spark完成回归分析模型及其运用操作

30. Spark回归程序完成异常点检测的程序示例

回归分析预测操作例子

图关系建模与分析发掘及其链接分析和社交分析操作

31. 应用Spark GraphX完成网页链接分析，计算网页重要性排名

32. 完成信息传播的社交关系传递分析，互联网用户的行为关系分析义务的操作训练

图数据的分析发掘操作，完成微博数据集的社交网络建模与关系分析

神经网络与深度学习算法模型及其运用实际

33. 神经网络算法Neural Network的完成方法和发掘模型运用

34. 基于人工神经网络的深度学习的训练过程

a) 传统神经网络的训练方法

b) Deep Learning的训练方法

35. 深度学习的常用模型和方法

a) CNN（Convolutional Neural Network）卷积神经网络

b) RNN（Recurrent Neural Network）循环神经网络模型

c) Restricted Boltzmann Machine(RBM)限制波尔兹曼机

36. 基于Spark的深度学习算法模型库的运用程序示例

基于Spark或TensorFlow神经网络深度学习库完成文本与图片数据发掘

项目实际

37. 日志分析系统与日志发掘项目实际

a) Hadoop，Spark，ELK技术构建日志数据仓库

b) 互联网微博日志分析系统项目

38. 引荐系统项目实际

a) 电影数据分析与个性化引荐关联分析项目

项目数据集和详细的实验指点手册由讲师提供

培训总结

39. 项目方案的课堂讨论，讨论实践业务中的分析需求，分析各个环节的难点、痛点、瓶颈，启示出处理之道；完成讲师布置的项目案例，巩固学过的大数据分析发掘处理平台技术知识以及运用技能

讨论交流

第四天

学员考试与业界交流

7.培训师资

周教师，男，中国迷信院通讯与信息系统专业博士。北京邮电大学移动互联网与信息化实验室特聘研讨员、对外经贸大学信息学院特聘兼职教师、中国移动集团高级培训讲师，长期从事大数据、4G、移动互联网安全、管理及大数据准确营销等研讨方向。国内顶级信息系统架构师，金牌讲师，技术顾问，移动开发专家。拥有丰富的通讯信息系统设计、开发阅历及培训行业阅历，先后为全国超过15家省移动公司，超过30家地市移动公司有过项目开发合作及授课，担任多个大型通讯项目的总师。

张教师：阿里大数据高级专家，国内资深的Spark、Hadoop技术专家、虚拟化专家，对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术停止了多年的深化的研讨，更次要的是这些技术在大量的实践项目中得到广泛的运用，因此在Hadoop开发和运维方面积累了丰富的项目实施阅历。近年次要典型的项目有：某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通讯运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据运用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。

8.颁发证书

参加相关培训并经过考试的学员，可以获得：

1.工业和信息化部颁发的-大数据发掘高级工程师职业技能证书。该证书可作为专业技术人员职业才能考核的证明，以及专业技术人员岗位聘用、任职、定级和提升职务的重要根据。

注：请学员带二寸彩照2张（背面注明姓名）、身份证复印件一张。

9.培训费用

培训费7800元/人。（含培训费、材料费、考试费、证书费、讲义费等）。需求住宿学员请提早告诉，可一致安排，费用自理。

北京现代123 · 2019-8-17 08:08:10

我有一个大胆的想法。。。

kulelala · 2019-8-18 09:54:45

顶起顶起顶起

angelxsy2010 · 2019-8-19 11:55:11

好棒的分享楼主多写点吧，写完记得通知我，哈哈

		自动登录	找回密码
密码			立即注册

苏州10月大数据建模与分析发掘运用实战培训班

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们