门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
大数据
›
关于大数据管理,你该知道的
1
2
3
/ 3 页
下一页
返回列表
关于大数据管理,你该知道的
[复制链接]
菊乡小女
2020-8-4 18:56:21
显示全部楼层
|
阅读模式
随着大数据时代的悄然降临,大数据的价值逐渐得到广泛认可。有效管理大数据,沉淀成数据资产,对内可完成数据资产增值,对外可完成数据共享变现,是企业的通用诉求。
但是,企业在管理底层数据时,常常会面临各种应战:各业务系统分散,构成信息孤岛;未制定一致的数据标准;数据处理才能薄弱;数据没有互通互联,难以建立数据共享机制。
本文就来聊聊大数据管理的两个重要概念:
数据仓库
、
数据管理
。
(上)数据仓库
| 数据仓库是什么
数据仓库是基于数据库的建设过程,是一个面向主题的、集成的、相对波动的、反映历史变化的数据集合,用于支持管理决策。
未建设数仓前,需求对多个源表停止查询分析,查询慢,数据质量差,无法停止高价值的数据分析。经过建设数仓,可以在一个地方疾速访问多个系统源数据,疾速呼应OLAP分析;提高数据质量和分歧性;可以提供历史的数据存储;更有利于停止数据价值发掘和数据分析。
| 数据仓库与数据库区别
数据库是面向事物的设计,更关注业务买卖处理(OLTP);而数据仓库面向主题设计,更关注数据分析层面(OLAP)。
数据库普通存储在线买卖数据,数据仓库反应的是历史信息,存储历史数据,不可修正。
数据库尽量避免冗余,而数据仓库有意冗余,经过空间换工夫。
以银行业务为例,客户在银行的每笔买卖需求写入数据库记录上去,起到“记账”的作用,是事物系统的数据平台;而数据仓库是分析系统的数据平台,它从事物系统获取数据并汇总加工,支持分析决策,如某分行每月发生多少买卖、当前存款余额,以此来决议能否需求添加ATM机。
| 数据仓库全体框架
数据源层:
清点数据仓库需求接入的数据源,数据库、结构化电子文件、非结构化数据文件、行为日志等。最终在接入数据仓库时,一切的数据类型都会转化成两种数据格式:数据库表和电子化结构化文件。
数据接入层:
按下层运用场景不同,接入可分为实时接入和批量接入。
实时接入:对于实时接入的数据,以流式的方式写入kafka,创建Topic供后续消费;
批量接入:对于批量接入的数据,次要有4种处理逻辑:
写入Kafka的数据被spark消费,处理后写入HDFS,然后load至hive表;FTP方式批量传输;应用sqoop将数据库数据批量迁移至HDFS或hive;数据共享交换平台提取数据库或文件数据停止入库。
数据计算层:
ETL义务开发,按需生成对应的理想-维度表或集市层表。业内通常将数据仓库构建为4层架构:
STG层,缓冲层,次要用来接收源头系统提供的数据;ODS层,操作数据存储层,该层存储和源头系统相反的数据结构,方便数据质量稽核和数据处理。缓冲层的增量数据会在该层做数据合并。DW层,数据仓库,对接入数据停止模型化的构建,构成一切主题的通用的集合。DM层,数据集市,面向某个业务运用而构建的部分DW。
图:ODS到DW的集成示例
数据运用层:
基于数仓的顶层运用有很多,例如:
实时统计类:经过流式处理,将数据停止简单的目的汇总,运用端实时展现目的结果;多维分析类:提供数据的多维度组合分析(切片、切块、钻取、旋转等),其中多维分析模型可以作为BI的报表数据基础;产品运用类:标签画像系统可以基于数仓经过处理的数据,提供宏观画像和微观画像分析;知识图谱可以基于数仓清算后的数据,停止实体和关系的构建;数据服务类:为外部提供接口方式的数据查询和传输,或者停止大批量数据的数据库导入导出服务;
(下)数据管理
| 为什么要停止数据管理
将分散、多样化的核心数据经过数据管理技术手腕和产品工具停止优化,构成企业内的数据管理体系,并结合企业组织结构,构成数据管控执行体系,在企业外部持续运转、提升发掘数据的运用价值。
数据管理最终达成的目的可以归为以下六点:
一致:一致数据标准,建立一致的数据资产管理体系;质量:提高数据的质量,包括准确性、分歧性、及时性;成本:优化数据生命周期,降低数据管理和运维成本;安全:确保数据安全性,加强数据访问控制;增值:保证数据资产的有效应用和价值最大化,保证数据资产的保值和增值;运用:输入并支撑下层的企业内外部运用。
| 如何停止数据管理?
数据管理的三要素:
数据标准
、
数据质量稽核
、
元数据管理
。下面逐一展开来讲。
数据标准
从业务角度定义,如设备类、会员类数据,不同渠道来源但同一含义的要一致口径规范、数据与数据之间的规范;
从技术角度定义,表、字段、字段格式等都要一致规范,如:ID信息、手机号、身份证号等。
数据标准来源可以是国家标准、行业标准,也可以是基于业务的企业标准。
定义完数据标准后,对于新新建设的数据平台,要采用一致的数据标准;对于已存在的业务系统,在不影响线上的准绳上,逐渐数据标准接轨。标准执行后,要长期稽核监测,并输入数据标准校核报告。
图:数据标准管理周期
数据质量稽核
以数据标准为数据管控的入口,根据数据标准定数据质量检核规则。对于数据的稽核,有以下八类稽核规则,前六类是单表级校验,后两类是多表级校验:
记录数校验:稽核单表内写入的数值能否在指定的阈值范围内;空值校验:稽核某一列数据能否含有空值;独一性校验:稽核某一列的数据能否都独一;数据格式校验:稽核某一列的数据能否符合指定格式规范,如手机号格式校验;准确性校验:稽核某一列的数值能否在一定范围内(包括维度和阈值);波动值校验:监测某一列的记录数或某字段数据值,与历史的业务周期的数值波动能否异常;分歧性校验(多表):多表间的数据能否分歧;逻辑性校验(多表):校验稽核表与参照表里某一列或某几列数据的表达式停止比较,检查数据逻辑能否正确。例如“可视电话用户状况统计”表中的字段“总的出账用户”>=“可视电话用户运用特征统计”表中的字段“记录中总的出账用户”。
元数据管理
元数据就是定义数据的数据,比如一本书的书名、作者、出版社、出版工夫都是元数据。
血缘分析:血缘分析是指从某一实体出发,往回追溯其处理过程,直到数据系统的数据源接口,以衡量数据的置信度、质量等。
影响分析:影响分析是指从某一实体出发,寻觅依赖该实体的处理过程实体或其他实体。重点关注数据流向,把控源头实体发生变更时对下游实体的影响。如移动用户话务信息表->移动大客户信息表->前端展现的竞争专题/用户分析 或 决策专题/市场分析。
Garbage in,Garbage out。
这个是永久的真理。只要将底层的基础数据管理好,才能更有效的支撑下层的大数据运用。
作者:Herman Lee 沉淀个人的产品方法论
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
23
山海广夫
2020-8-4 19:02:01
显示全部楼层
不错
回复
使用道具
举报
这有一只糖糖啊
2020-8-4 19:12:34
显示全部楼层
分享了
回复
使用道具
举报
百姓二手车
2020-8-4 19:19:46
显示全部楼层
分享了
回复
使用道具
举报
独向隅
2020-8-4 19:30:35
显示全部楼层
分享了
回复
使用道具
举报
仔仔不坏
2020-8-4 19:37:04
显示全部楼层
分享了
回复
使用道具
举报
你的ANGEL
2020-8-4 19:40:04
显示全部楼层
分享了
回复
使用道具
举报
说个几把1
2020-8-4 19:47:30
显示全部楼层
分享了
回复
使用道具
举报
rxcym
2020-8-4 19:58:21
显示全部楼层
分享了
回复
使用道具
举报
xufan964
2020-8-4 20:06:37
显示全部楼层
分享了
回复
使用道具
举报
下一页 »
1
2
3
/ 3 页
下一页
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
菊乡小女
金牌会员
0
关注
0
粉丝
85
帖子
Ta的主页
发布
加好友
最近发表
黄仁勋:人形机器人制造成本或比预期要低,花钱买车不如买机器人
那个震撼无数网友的人形机器人Atlas,退役了
外媒:马斯克透露,“擎天柱”机器人仍在试验阶段,最早明年年底
机器人!
终于知道为什么机器人无法取代人类了,看完网友分享,笑到肚子疼
人形机器人Atlas脖子和腰能转180度,机器人一定要造得像人吗?
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们