门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
大数据
›
为什么选择这样的大数据平台架构?
返回列表
为什么选择这样的大数据平台架构?
[复制链接]
明明只爱一生
2018-12-12 13:35:37
显示全部楼层
|
阅读模式
文 | 傅一平
当前BAT基本公开了其大数据平台架构,从网上也能查询到一些材料,关于大数据平台的各类技术引见也不少,但在那个机制、那个环境、那个人才、那个薪酬体系下,对于传统企业,可自创的东西也是有限的。
技术最终为业务服务,没必要一定要追求先进性,各个企业应根据本人的实践状况去选择本人的技术途径。
与传统的更多从技术的角度来对待大数据平台架构的方式不同,笔者这次,更多的从业务的视角来谈谈关于大数据架构的了解,即更多的会问为什么要采用这个架构,到底能给业务带来多大价值,实际的最终结果是什么。
它不一定具有通用性,但从一定程度讲,这个架构能够比BAT的架构更顺应大多数企业的状况,毕竟,大多数企业,数据没到那个份上,也不能够完全自研,商业和开源的结合能够更好一点,权当抛砖引玉。
大数据平台架构的层次划分没啥标准,以前笔者曾经做过大数据运用规划,也是非常纠结,由于运用的分类也是横纵交错,后来还是觉得表现一个“能用”准绳,明晰且容易了解,能指点建设,这里将大数据平台划分为“五横一纵”。
详细见下图示例,这张图是比较经典的,也是妥协的结果,跟当前网上很多的大数据架构图都可以作一定的映射。
何谓五横,基本还是根据数据的流向自底向上划分五层,跟传统的数据仓库其实很相似,数据类的系统,概念上还是相通的,分别为数据采集层、数据处理层、数据分析层、数据访问层及运用层。
同时,大数据平台架构跟传统数据仓库有一个不同,就是同一层次,为了满足不同的场景,会采用更多的技术组件,表现百花齐放的特点,这是一个难点。
数据采集层:
既包括传统的ETL离线采集、也有实时采集、互联网爬虫解析等等。
数据处理层:
根据数据处理场景要求不同,可以划分为HADOOP、MPP、流处理等等。
数据分析层:
次要包含了分析引擎,比如数据发掘、机器学习、 深度学习等。
数据访问层:
次要是完成读写分离,将倾向运用的查询等才能与计算才能剥离,包括实时查询、多维查询、常规查询等运用场景。
数据运用层:
根据企业的特点不同划分不同类别的运用,比如针对运营商,对内有精准营销、客服赞扬、基站分析等,对外有基于地位的客流、基于标签的广告运用等等。
数据管理层:
这是一纵,次要是完成数据的管理和运维,它横跨多层,完成一致管理。
1、数据采集层,这是基础。
离线批量采集,采用的是HADOOP,这个曾经成为当前流线采集的主流引擎了,基于这个平台,需求部署数据采集运用或工具。
诸如BAT都是本人研发的产品,普通企业,可以采用商用版本,如今这类选择很多,比如华为BDI等等,很多企业技术实力有,但起步的时分往往对于运用场景的了解比较弱,细节唱工很差,导致做出来的产品难以达到要求,比如缺乏统计功能等,跟BAT差距很大,传统企业去采购这类产品,要慎重小心。
一个建议是,当采购产品的时分,除了技术先进性和目的外,更多的应该问问是版本啥时分上线的,能否在哪里成功部署,能否有足够多的客户,假如能做个测试就更好,否则,你就是小白鼠哦,这个坑踩了不少。
能做和做成产品是两个境界的事情,小的互联网企业当然也能做出对于本人好用的采集工具,但它很难笼统并打造出一个真正的产品,BAT自研其实构成了宏大的优势。
实时采集如今也成了大数据平台的标配,估计主流就是FLUME+KAFKA,然后结合流处理+内存数据库吧,这个技术一定靠谱,但这类开源的东西好是好,但一旦出现成绩往往处理周期往往比较长。
除了用FLUME,针对ORACLE数据库的表为了实理想时采集,也可以采用OGG/DSG等技术实理想时的日志采集,可以处理传统数据仓库抽全量表的负荷成绩。
爬虫当前也逐渐成为很多企业的采集标配,由于互联网新增数据次要靠它,可以经过网页的解析获取大量的上网信息,什么舆情分析、网站排名啥的,建议每个企业都应该建立企业级的爬虫中心,假如它未在你的大数据平台规划内,可以思索一下,能拿的数据都不拿,就没什么好说了。
企业级的爬虫中心的建设难度蛮大,由于不只仅是需求爬虫,还需求建立网址和运用知识库,需求基于网页文本停止中文分词,倒排序及文本发掘等,这一套上去,应战很大,当前曾经有不少开源组件了,比如solr、lucent、Nutch、ES等等,但要用好它,路漫漫其修远兮。
还有一个就是,假如有能够,笔者建议将数据采集平台晋级为数据交换平台,由于其实企业内有大量的数据活动,不只仅是单向的数据采集,而且有很多数据交换,比如需求从ORACLE倒数据到GBASE,从HBASE倒数据到ASTER等等,对于运用来讲,这个价值很大。
既然数据采集和数据交换有很多功能非常相似,为什么不做整合呢?也便于一致管理,感觉企业的数据交换大量都是运用驱动,接口管理乌七八糟,这也是我的一个建议。
总得来讲,建设大数据采集平台非常不易,从客户的角度讲,至少要达到以下三个要求:
多样化数据采集才能:
支持对表、文件、音讯等多种数据的实时增量数据采集(运用flume、音讯队列、OGG等技术)和批量数据分布式采集等才能(SQOOP、FTP VOER HDFS),比基于传统ETL功能有量级上的提升,这是根本。
可视化疾速配置才能:
提供图形化的开发和维护界面,支持图形化拖拽式开发,免代码编写,降低采集难度,每配置一个数据接口耗时很短,以降低人工成本。
一致调度管控才能:
完成采集义务的一致调度,可支持Hadoop的多种技术组件(如 MapReduce、Spark 、HIVE)、关系型数据库存储过程、 shell脚本等,支持多种调度策略(工夫/接口告诉/手工)。
2、数据处理层,如今有个词叫混搭,的确是这样。
Hadoop的HIVE是传统数据仓库的一种分布式替代。运用在传统ETL中的数据的清洗、过滤、转化及直接汇总等场景很合适,数据量越大,它的性价比越高。但目前为止看,其支撑的数据分析场景也是有限的, 简单的离线的海量分析计算是它所擅长的,相对应的,复杂的关联交叉运算其速度很慢。
一定程度讲,比如企业客户一致视图宽表用HIVE做比较低效,由于触及到多方数据的整合,但不是不可以做,最多慢点嘛,还是要讲究个平衡。
hadoop到了X000台集群的规模也撑不住了,当前很多企业的数据量应该会超过这个数量,除了像阿里等本身有研发才能的企业(比如ODPS),能否也要走向按照业务拆分Hadoop集群的道路?诸如浙江移动曾经拆分了固网、移网、创新等多个hadoop集群。
Hadoop的SPARK的很合适机器学习的迭代,但能否大规模的运用于数据关联分析,能否一定程度替代MPP,还需求实际来验证。
MPP应该来说,是采用分布式架构对于传统数据仓库最好的替代,毕竟其实践上是变了种的关系型数据库,对于SQL提供残缺支持,在HIVE做了转化分析后,数据仓库的交融建模用它来做功能绰绰不足,其性价比较传统DB2更好一点,比如经过适用,Gbase30-40台集群就能超过2台顶配的IBM 780。
MPP如今产品很多,很难做优劣判别,但一些实际结果可以说下,GBASE不错,公司很多系统曾经在下面跑了,次要还是国产的,技术服务保障相对靠谱,ASTER还有待观望,自带一些算法库是有其一些优势,GreenPlum、Vertica没用过,不好说。
如今有个说法是MPP最终也要被Hadoop那套框架替代,毕竟诸如SPARK啥的都在逐渐波动和成熟,但在短期内,我觉得还是很靠谱的,假如数据仓库要采用渐进的演化方式,MPP的确是很好的选择。
如今诸如中国移动,eBAY等大量公司都在采用这类混搭结构,以顺应不同的运用场景,显然是一种自然的选择。
大数据平台的三驾马车,少不了流处理。
对于很多企业来讲,其显然是核武器般的存在,大量的运用场景需求它,因此务必要停止建设,比如在IOE时代不可想象的实时、准实时数据仓库场景,在流处理那里就变得很简单了,以前统计个实时目的,也是很痛苦的事情,当前比如反欺诈实时系统,一天系统就央求部署好了。
只尝试过STORM和IBM STREAM,引荐IBM STREAM,虽然是商业版本,但其处理才能超过STORM不是一点半点,听说STORM也基本不更新了,但其实数据量不大,用啥都可以,从运用的角度讲,诸如IBM这种商业版本,是不错的选择,支撑各类实时运用场景绰绰不足。
流处理集群以流处理技术结合内存数据库,用以实时及准实时数据处理,基于IBM Streams流处理集群承载公司的实时业务:
3、数据分析层,与时俱进吧。
先谈谈言语,R和Python是当前数据发掘开源范畴的一对基友,假如要说取舍,笔者真说不出来,感觉Python更倾向工程一点,比如有对分词啥的直接支撑,R的绘图才能异常弱小。但他们原来都以样本统计为主,因此大规模数据的支撑有限。
笔者还是更关注分布式发掘环境,SPARK是一种选择,建议可以采用SPARK+scala,毕竟SPARK是用scala写的,对很多原生的特功可以疾速支持。
TD的MPP数据库ASTER也内嵌了很多算法,应该基于并行架构做了很多优化,似乎也是一种选择,以前做过几度交往圈,速度的确很快,但运用材料屈指可数,还需求老外的支持。
传统的数据发掘工具也不甘人后,SPSS如今有IBM SPSS Analytic Server,加强了对于大数据hadoop的支撑,业务人员运用反馈还是不错的。
也许将来机器学习也会构成高低搭配,高端用户用spark,低端用户用SPSS,也是要顺应不同的运用场景。
深度学习如今渐成潮流,TensorFlow是个选择,公司当前也部署了一套,希望无机会运用,往人工智能方向演进是大势所趋。
无论如何,工具仅仅是工具,最终靠的还是建模工程师驾驭才能。
4、数据开放层,也处在一个战国时代。
有些工程师直接将HIVE作为查询输入,虽然不合理,也表现出计算和查询对于技术才能要求完全不同,即便是查询范畴,也需求根据不同的场景,选择不同的技术。
HBASE很好用,基于列存储,查询速度毫秒级,对于普通的百亿级的记录查询那也是才能杠杠的,具有一定的高可用性,我们消费上的详单查询、目的库查询都是很好的运用场景。但读取数据方面只支持经过key或者key范围读取,因此要设计好rowkey。
Redis是K-V数据库,读写速度比HBASE更快,大多时分,HBASE能做的,Redis也能做,但Redis是基于内存的,次要用在key-value 的内存缓存,有丢失数据的能够,当前标签实时查询会用到它,合作过的互联网或广告公司大多采用该技术,但假如数据越来越大,那么,HBASE估计就是独一的选择了?
另外曾经基于IMPALA提供互联网日志的实时在线查询运用,也在尝试在营销平台采用SQLFire和GemFire完成分布式的基于内存的SQL关联分析,虽然速度可以,但也是BUG多多,引入和改造的代价较大。
Kylin当前算是基于hadoop/SPARK的多维分析的杀手级工具,运用的场景非常多,希望无机会运用。
5、数据运用层,百花齐放吧。
每个企业应根据本人的实践规划本人的运用,其实搞运用蓝图很难,大数据架构越下层越不波动,由于变化太快,以下是运营商对外变现当前阶段还算通用的一张运用规划图,供参考:
6、数据管理层,路漫漫其修远兮
大数据平台的管理有运用管理和系统管理之分,从运用的角度讲,比如我们建立了DACP的可视化管理平台,其能适配11大搭数据技术组件,可以完成对各类技术组件的透明访问才能,同时经过该平台完成从数据设计、开发到数据销毁的全生命周期管理,并把标准、质量规则和安全策略固化在平台上,完成从事前管理、事中控制和预先稽核、审计的全方位质量管理和安全管理。
其它诸如调度管理、元数据管理、质量管理应然不在话下,由于管住了开发的源头,数据管理的复杂度会大幅降低。
从系统管理的角度看,公司将大数据平台归入一致的云管理平台管理(公有云),云管理平台包括支持一键部署、增量部署的可视化运维工具、面向多租户的计算资源管控体系(多租户管理、安全管理、资源管理、负载管理、配额管理以及计量管理)和完善的用户权限管理体系,提供企业级的大数据平台运维管理才能支撑,当然这么宏大的目的要完成也非一日之功。
总结下大数据平台的一些革命性价值。
大数据时代,大多数企业的架构必然向着分布式、可扩展及多元化发展,所谓合久必分,不再有一种技术能包打天下了, 这冲击着传统企业集中化的技术外包形式,应战是宏大的。
大数据及云计算时代,面多这么多技术组件,要采用一项新的技术,机遇和风险共存:
对于大数据平台的商业版本,企业面对的是合作伙伴的服务跟不上,由于发展太快,对于开源版本,企业面临的是本身运维才能和技术才能的应战,对于自主才能实践要求更高。
当前BAT、华为、新型互联网等企业在风卷残云般的席卷人才, 对于诸如运营商等大型企业的人才应战是宏大的,但同时也包含着机会, 理想上,对于努力于搞大数据的人来讲,来运营商等企业搞也是不错的选择,由于一方面企业在转型,另一方面数据量够大,技术主导的机会更多。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
7
芬里斯之子
2018-12-12 14:55:23
显示全部楼层
谁把亚信的大数据基础培训材料给发网下去了
回复
使用道具
举报
周无衣
2018-12-12 15:47:00
显示全部楼层
你好,能聊聊吗?
回复
使用道具
举报
Cci慕斯
2018-12-12 16:04:09
显示全部楼层
在mpp范畴说gbase好,too young
回复
使用道具
举报
苏培敏
2018-12-12 17:36:32
显示全部楼层
本人是最早加入analytic server研发的成员,看来我也可以写写文章了
回复
使用道具
举报
清风@@影
2018-12-12 18:50:54
显示全部楼层
good
回复
使用道具
举报
xhqwd159
2018-12-12 20:31:33
显示全部楼层
还好
回复
使用道具
举报
zey77433
2018-12-13 07:31:55
显示全部楼层
顶一个,顶一个,顶一个
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
明明只爱一生
金牌会员
0
关注
0
粉丝
107
帖子
Ta的主页
发布
加好友
最近发表
定档8月16日 | 2024亚洲智能穿戴大会
华为智能眼镜 2评测:可能是上班族最好用的智能穿戴
2023年全球智能可穿戴腕带出货量及竞争格局分析
智能穿戴概念8日主力净流出24.84亿元,光启技术、立讯精密居前
智能穿戴概念11日主力净流入5.62亿元,三六零、兆易创新居前
智能穿戴概念10日主力净流出23.94亿元,立讯精密、中兴通讯居前
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们