- 一、数据挖掘的含义:
- 从大量数据撷取不明显、之前未知、可能有用的知识。
- 二、特征工程流程:
- 构建、选择、转化、自学习。
- 三、NLP流程:
- 1、(英文)字根还原,~ing与~ed。
- 2、(中文)分词与词性的标注。
- 3、关键词提取。
- 4、文本非结构数据——结构化。
- 四、决策树包含:
- 分类树与回归树。
- 五、数据挖掘解决如下几类问题:
- 1、自动机器学习。
- 2、类别不均衡的问题。
- 3、半监督学习。
- 4、模型优化
- 六、实际案例:
- 1、信用风险预测:
- 比如说发现80%盗刷用户,第一笔交易小于1元;之后再找相关专业人士一起分析是否成立;
- 解决措施:先封锁风险高的卡户,之后用户打电话来询问,确认身份后无问题后,再解除封锁基于开通。
- 2、零售业:
- 分析不同用户群体,对哪些产品感兴趣。
- 3、政府部门:
- 应用数据挖掘。
- 七、数据挖掘的历程:
- 1、1960s:数据搜集(软盘、硬盘、磁盘)
- 2、1980s:数据查询(SQL)
- 3、1990s:数据统计(OLAP)——数仓,快速数据统计,分析整体指标
- 4、2000s:数据分析、挖掘。(精确到每一个用户)
|