智客公社

标题: 顶级公司在做数据发掘,却忽略了数据管理平台,这个知识不得不看 [打印本页]

作者: 奇迹消失的夜空    时间: 2020-7-4 13:07
标题: 顶级公司在做数据发掘,却忽略了数据管理平台,这个知识不得不看
一、文章概述

随着大数据业务的不断展开,各大互联网公司都非常注重数据价值的发掘。

在公司的日常运转中,各种数据分析发掘技术,为公司发展决策和业务展开提供数据支持。作者所在的公司外部也构成了一套完善的数据管理方案,核心就是由大数据平台+数据仓库+数据管理平台+数据监控平台来完成数据管理。

[attach]413886[/attach]


二、成绩

公司业务的不断发展加快了数据收缩的速度,数据不分歧等成绩也随之而来。同时业务部门的频繁添加和剥离也会对数据管理带来应战。

例如:不同业务线之间没有一致的数据入口记录和加工业务的发展过程;不同业务线的数据分析人员、数据开发人员,不同产品线之间缺乏有效的沟通,人员的活动也会产生一系列对接成绩。

上述成绩最终带来的后果就是目的数据可信度低,从而严重影响数据分析决策。

数据管理不只需求完善的保障机制,还需求详细的管理内容,比如我们的数据怎样规范、元数据怎样来管理、每个过程都需求哪些系统或者工具来配合呢,这些都是数据管理过程中最实践的成绩,明天我们将从数据管理的核心范畴来解答这些成绩。

[attach]413887[/attach]



如上图所示,对于数据仓库层,数据管理平台综合业务的组织方式、目的数据来源、目的定义规则、下层产品运用以及查询的效率指点数据仓库模型建设;

对于数据服务层的产品,业务元数据以及数据元数据均由数据管理平台提供,这样可以保障产品获得信息的分歧性,同时也减少了对底层数据的侵入。
三、数据管理的核心范畴

数据管理平台的核心是保障数据分歧性,同时在保障数据安全和分歧性的基础上,尽力提供高可用的数据服务分发才能。保障数据分歧性需求在建设的过程中不断停止笼统,构成具有相对单一功能的模块,合理组织模块层级间的关系。

提高数据管理平台的可用性次要包括如下范畴的管理。

[attach]413888[/attach]



如上图所示,数据管理平台次要包括数据存储、数据查询、元数据管理、安全管理、数据标准管理和数据运用管理等。

各范畴之间需求无机结合,数据标准、元数据、数据质量等几个范畴互相协同和依赖。例如数据标准管理可以提升数据合法性、合规性,进一步提高数据质量,减多数据消费成绩。

数据存储

数据管理平台的数据存储次要包括:数据仓库宽表/主题表层和数据运用层,存储方式包括:Hive、Kylin、ClickHouse、Druid、MySql。

[attach]413889[/attach]



上图所示的数据存储中的数据加工过程,均由数据开发工程师担任;详细采用哪种存储介质由数据架构师和数据开发工程师综合所需的数据存储空间、查询效率、数据模型组织方式等要素共同决议。

但是后续的运用维护均由数据管理平台来一致管理,次要是经过管理数据表元数据信息查询完成。

数据存储托管之后,数据表元数据信息变更监控、表数据消费(存储空间、消费形状及完成工夫)监控、表数据波动(同环比)监控以及表的运用(模型构建及查询效率等)监控及评价,都由数据管理平台自动完成,任何信息的变动都会自动告诉对应的担任人,以保障数据运用的安全和波动。
(此处已添加小程序,请到昔日头条客户端查看)

元数据管理

元数据分为业务元数据、数据元数据和操作元数据,三者之间严密相连。业务元数据指点数据元数据,数据元数据以业务元数据为参考停止设计,操作元数据为两者的管理提供支撑。

数据表模块管理

数据表模块管理触及数据库信息和数据表信息。其中数据库信息包括数据库链接信息,数据管理平台可以自动获取维护后的数据库信息所对应库中的元数据信息。

数据表信息包括:表的元数据信息(引擎、字段、描画等)、表类型(理想表、维度表)、表的运用状况(能否被模型援用)、表对应的ETL、担任人、监控报警配置、样例数据等。

上述信息为业务用户提供指点,为模型管理提供数据支持,也为数据表和数据的波动性提供监控和预警。

数据模型模块管理

模型模块管理可以还原业务落地后数据表的组织关系,包括:数据表的关联方式(join、left outer join、semi join等)、数据表的关联限制(where)、模型ER图、模型包含字段、模型字段与维度的绑定关系、模型与目的的绑定关系。

由于数据管理平台次要是针对数据分析运用的,所以次要的模型包括维度模型中的星型模型和雪花型模型。

目的模块管理

目的模块管理包括基础信息、衍生信息和技术信息管理。衍生信息包括关联目的、关联运用管理。基础信息对应的就是目的对应的业务过程信息,由业务人员编写,次要包括目的称号、业务分类、统计频率、精度、单位、目的定义、计算逻辑、分析方法、分析维度等;

基础信息中还有一个比较重要的部分是监控配置,次要是配置目的的有效波动范围区间、同环比波动区间等,监控目的数据的正常运转。

技术信息次要包括数据类型、目的代码,其中核心部分是目的与模型的绑定关系,经过配置对应的计算公式,或者还包括一些额外的高级配置,如二次计算、模型过滤条件等。

数据存储模块管理

在数据资源管理过程中,作者经过不断地实际渐渐探索出一套合适大数据的存储优化方法,可在元数据的基础上,诊断、加工成多个存储管理项目。

目前已有的存储管理优化项有未管理表、空表、最近93天未访问表、数据无更新无义务表、数据无更新有义务表、开发库数据大于100GB且无访问表、长周期表等。

[attach]413890[/attach]



生命周期管理的根本目的就是用最少的存储成本来满足最大的业务需求,使数据价值最大化。

数据计算模块管理

大型互联网公司的集群下面有几十万甚至几百万的义务,每天存储资源、计算资源耗费都很大。如何降低计算资源的耗费,提高义务执行的功能,提升义务产出的工夫,是计算平台和ETL开发工程师孜孜追求的目的,下面将重点引见义务优化。

SQL/MR作业普通会生成MapReduce义务,在Hadoop中则会生成唯逐一个job_id停止标识。

在Map端读数据时,由于读入数据的文件大小分布不平均,因此会导致有些Map Instance读取并且处理的数据特别多,而有些Map Instance处理的数据特别少,形成Map端长尾。以下两种状况会形成Map端长尾:

第一种状况导致的Map长尾,可以对下游数据合并小文件,同时调理本节点的小文件的参数来停止优化,即经过设置“SET odps.sql.mapper.merge.limit.size=64”和“SET odps.sql.mapper.split.size=256”两个参数来调理,其中第一个参数用于调理Map义务的Map Instance的个数;

第二个参数用于调理单个Map Instance读取的小文件个数,防止由于小文件过多导致Map Instance读取的数据量很不平均。

第二种状况导致的Map长尾,可以经过distribute by rand()会将Map端分发后的数据重新按照随机值再停止一次分发,避免Map端长尾。

数据安全管理

数据安全管理是数据管理平台的核心功能之一,分为平台操作权限管理和接口调用权限管理。
四、建设目的


作者: 菊执油    时间: 2020-7-4 18:30
路过
作者: 挚爱哄哄    时间: 2020-7-5 14:48
未完待续哈哈!
作者: 耀世    时间: 2020-7-6 17:26
是爷们的娘们的都帮顶!大力支持




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4