找回密码
 立即注册
搜索

顶级公司在做数据发掘,却忽略了数据管理平台,这个知识不得不看

一、文章概述

随着大数据业务的不断展开,各大互联网公司都非常注重数据价值的发掘。

在公司的日常运转中,各种数据分析发掘技术,为公司发展决策和业务展开提供数据支持。作者所在的公司外部也构成了一套完善的数据管理方案,核心就是由大数据平台+数据仓库+数据管理平台+数据监控平台来完成数据管理。



    大数据平台支撑整个大数据的运转环境数据仓库整合各个业务线的数据,消灭数据烟囱数据管理平台提供一致目的管理、一致维度管理、一致数据出口管理数据质量担任监控数据资产质量形状、持续推进数据质量监控优化预警、实时监控预警
二、成绩

公司业务的不断发展加快了数据收缩的速度,数据不分歧等成绩也随之而来。同时业务部门的频繁添加和剥离也会对数据管理带来应战。

例如:不同业务线之间没有一致的数据入口记录和加工业务的发展过程;不同业务线的数据分析人员、数据开发人员,不同产品线之间缺乏有效的沟通,人员的活动也会产生一系列对接成绩。
    各个数据平台和业务系统不同模块的目的定义不分歧相反目的称号对应计算口径不分歧目的数据来源不分歧

上述成绩最终带来的后果就是目的数据可信度低,从而严重影响数据分析决策。

数据管理不只需求完善的保障机制,还需求详细的管理内容,比如我们的数据怎样规范、元数据怎样来管理、每个过程都需求哪些系统或者工具来配合呢,这些都是数据管理过程中最实践的成绩,明天我们将从数据管理的核心范畴来解答这些成绩。




如上图所示,对于数据仓库层,数据管理平台综合业务的组织方式、目的数据来源、目的定义规则、下层产品运用以及查询的效率指点数据仓库模型建设;

对于数据服务层的产品,业务元数据以及数据元数据均由数据管理平台提供,这样可以保障产品获得信息的分歧性,同时也减少了对底层数据的侵入。
三、数据管理的核心范畴

数据管理平台的核心是保障数据分歧性,同时在保障数据安全和分歧性的基础上,尽力提供高可用的数据服务分发才能。保障数据分歧性需求在建设的过程中不断停止笼统,构成具有相对单一功能的模块,合理组织模块层级间的关系。

提高数据管理平台的可用性次要包括如下范畴的管理。




如上图所示,数据管理平台次要包括数据存储、数据查询、元数据管理、安全管理、数据标准管理和数据运用管理等。

各范畴之间需求无机结合,数据标准、元数据、数据质量等几个范畴互相协同和依赖。例如数据标准管理可以提升数据合法性、合规性,进一步提高数据质量,减多数据消费成绩。

数据存储

数据管理平台的数据存储次要包括:数据仓库宽表/主题表层和数据运用层,存储方式包括:Hive、Kylin、ClickHouse、Druid、MySql。




上图所示的数据存储中的数据加工过程,均由数据开发工程师担任;详细采用哪种存储介质由数据架构师和数据开发工程师综合所需的数据存储空间、查询效率、数据模型组织方式等要素共同决议。

但是后续的运用维护均由数据管理平台来一致管理,次要是经过管理数据表元数据信息查询完成。

数据存储托管之后,数据表元数据信息变更监控、表数据消费(存储空间、消费形状及完成工夫)监控、表数据波动(同环比)监控以及表的运用(模型构建及查询效率等)监控及评价,都由数据管理平台自动完成,任何信息的变动都会自动告诉对应的担任人,以保障数据运用的安全和波动。
(此处已添加小程序,请到昔日头条客户端查看)

元数据管理

元数据分为业务元数据、数据元数据和操作元数据,三者之间严密相连。业务元数据指点数据元数据,数据元数据以业务元数据为参考停止设计,操作元数据为两者的管理提供支撑。
    业务元数据:业务元数据是定义和业务相关数据的信息,用于辅助定位、了解和访问业务信息。数据元数据:数据元数据结构性数据元数据和关联性数据元数据。操作元数据:操作元数据次要指与元数据管理相关的组织、岗位、职责、流程,以及系统日常运转产生的操作数据。

数据表模块管理

数据表模块管理触及数据库信息和数据表信息。其中数据库信息包括数据库链接信息,数据管理平台可以自动获取维护后的数据库信息所对应库中的元数据信息。

数据表信息包括:表的元数据信息(引擎、字段、描画等)、表类型(理想表、维度表)、表的运用状况(能否被模型援用)、表对应的ETL、担任人、监控报警配置、样例数据等。

上述信息为业务用户提供指点,为模型管理提供数据支持,也为数据表和数据的波动性提供监控和预警。

数据模型模块管理

模型模块管理可以还原业务落地后数据表的组织关系,包括:数据表的关联方式(join、left outer join、semi join等)、数据表的关联限制(where)、模型ER图、模型包含字段、模型字段与维度的绑定关系、模型与目的的绑定关系。

由于数据管理平台次要是针对数据分析运用的,所以次要的模型包括维度模型中的星型模型和雪花型模型。

目的模块管理

目的模块管理包括基础信息、衍生信息和技术信息管理。衍生信息包括关联目的、关联运用管理。基础信息对应的就是目的对应的业务过程信息,由业务人员编写,次要包括目的称号、业务分类、统计频率、精度、单位、目的定义、计算逻辑、分析方法、分析维度等;

基础信息中还有一个比较重要的部分是监控配置,次要是配置目的的有效波动范围区间、同环比波动区间等,监控目的数据的正常运转。

技术信息次要包括数据类型、目的代码,其中核心部分是目的与模型的绑定关系,经过配置对应的计算公式,或者还包括一些额外的高级配置,如二次计算、模型过滤条件等。

数据存储模块管理

在数据资源管理过程中,作者经过不断地实际渐渐探索出一套合适大数据的存储优化方法,可在元数据的基础上,诊断、加工成多个存储管理项目。

目前已有的存储管理优化项有未管理表、空表、最近93天未访问表、数据无更新无义务表、数据无更新有义务表、开发库数据大于100GB且无访问表、长周期表等。




生命周期管理的根本目的就是用最少的存储成本来满足最大的业务需求,使数据价值最大化。
    周期性删除策略:所存储的数据都有一定的有效期,从数据创建末尾到过时,可以周期性删除已过有效期的X天前的数据。假如某些历史数据能够曾经没有价值,且占用存储成本,则可针对有效的历史数据就可以停止定期清算。测底删除策略:无用表数据或者ETL过程产生的暂时数据,以及不需求保留的数据,可以停止及时删除,包括删除元数据。永世保留数据:重要且不可以恢复的底层数据和运用数据需求永世保留,例如底层买卖的增量数据,出于存储成本与数据价值相权衡的思索,需求永世保留,以备用于历史数据的恢复与核查。冷数据管理策略:冷数据策略是永世保留策略的扩展。永世保留的数据需求迁移到冷数据中心永世保存。

数据计算模块管理

大型互联网公司的集群下面有几十万甚至几百万的义务,每天存储资源、计算资源耗费都很大。如何降低计算资源的耗费,提高义务执行的功能,提升义务产出的工夫,是计算平台和ETL开发工程师孜孜追求的目的,下面将重点引见义务优化。

SQL/MR作业普通会生成MapReduce义务,在Hadoop中则会生成唯逐一个job_id停止标识。
    Map倾斜:每个输入分片会让一个Map Instance来处理,默许状况下,以系统中一个文件块的大小(默以为256MB)为一个分片。Map Instance输入的结构会暂时放在一个环形内存缓冲区中,当该缓冲区快要溢出时会在本地文件系统中创建一个溢出文件,即Write Dump。在Map读数据阶段,可以经过“SET odps.mapper.split.size=256”来调理Map Instance的个数,提高数据读入的效率,同时也可以经过“SET odps.mapper.merge.limit.size=64”来控制Map Instance读取文件的个数。假如输入数据的文件大小差异比较大,那么每个Map Instance读取的数据量和读取工夫差异也会很大。在写入磁盘之前,线程首先根据Reduce Instance的个数划分分区,数据会根据Key值Hash到不同的分区上,一个Reduce Instance对应一个分区的数据。Map端也会做部分聚合操作,以减少输入Reduce端的数据量。由于数据是根据Hash分配的,因此会导致有些Reduce Instance会分配到大量数据。

在Map端读数据时,由于读入数据的文件大小分布不平均,因此会导致有些Map Instance读取并且处理的数据特别多,而有些Map Instance处理的数据特别少,形成Map端长尾。以下两种状况会形成Map端长尾:
    下游表文件的大小特别不平均,并且小文件特别多,导致当前表Map端读取的数据分布不平均,惹起长尾。Map端做聚合时,由于某些Map Instance读取文件的某个值特别多而惹起长尾,次要是指Count Distinct操作。

第一种状况导致的Map长尾,可以对下游数据合并小文件,同时调理本节点的小文件的参数来停止优化,即经过设置“SET odps.sql.mapper.merge.limit.size=64”和“SET odps.sql.mapper.split.size=256”两个参数来调理,其中第一个参数用于调理Map义务的Map Instance的个数;

第二个参数用于调理单个Map Instance读取的小文件个数,防止由于小文件过多导致Map Instance读取的数据量很不平均。

第二种状况导致的Map长尾,可以经过distribute by rand()会将Map端分发后的数据重新按照随机值再停止一次分发,避免Map端长尾。

数据安全管理

数据安全管理是数据管理平台的核心功能之一,分为平台操作权限管理和接口调用权限管理。
四、建设目的

    保障提供数据目的定义、计算口径、数据来源分歧性。保障维度定义、维度值分歧性。保障维度和目的元数据信息的独一出口。提供维度和目的数据一致监控及预警才能。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

菊执油 2020-7-4 18:30:50 显示全部楼层
路过
回复

使用道具 举报

挚爱哄哄 2020-7-5 14:48:40 显示全部楼层
未完待续哈哈!
回复

使用道具 举报

耀世 2020-7-6 17:26:39 显示全部楼层
是爷们的娘们的都帮顶!大力支持
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies