找回密码
 立即注册
搜索

运维、成本、安全,大数据处理技术三大挑战,如何解决?

qofubi 2023-3-29 08:13:50 显示全部楼层 阅读模式
尽管大数据发展到现在,已经有了一定的技术和商业积累,但还有很多难题等待我们解决。在众多的难题中,亟待解决的主要挑战有:运维挑战、成本挑战和安全挑战。


如何应对这些挑战?有没有具体的解决方案?针对这个问题,笔者与在亚马逊云科技任数据架构师的朋友 will(英文名)进行了深度交流。
我们经常说:当今社会已经进入了大数据时代。这句话,容易让人理解为在过去数据似乎离人们很远,或者说过去的时代只有小数据甚至无数据。
事实上,自从人类诞生之日起,数据就承载着人类对自然万物、生产生活的记录和表达。从古代的“结绳记事”,到现在的“智能仪表盘”,从传统数据到网络数据,从小数据到大数据,变化的只有承载数据的载体和使用数据的方法/技术,而数据作为大千世界的符码,一直存在,且亘古未变。万物皆可产生数据,万物皆可数据化。
现如今,人们经常将数据比作石油和金矿,其实在我看来,这只是从经济的视角来阐述数据的价值,而数据的价值远不止于此。数据中既有宇宙星空的奥秘,也有人类社会的百态。谁掌握了数据,谁就掌握了未来!
激活数据潜能,释放数据价值,已经成为当今社会各界的重要共识。于是乎,我们看到越来越多的组织,将数据作为一项重要的资源对其进行采集、存储、管理和利用。
--

01

大数据技术的发展历程

随着人们对数据越来越重视,大数据的存储和处理的技术也有了较快的发展。注意:这里的数据是指已经电子化的数据,龟壳上的甲骨文、泥板上的楔形文字、以及现代在纸质文件等都不在这个范畴。依据笔者的观察,数据存储和处理技术主要经历了4个发展阶段:
1、传统SQL数据库
传统SQL数据库也叫SMP架构数据库(全称是Symmetrical Multi-Processing,SMP),其核心原理是多处理器共享统一的内存和磁盘等,应用场景以单机为主。我们常见的Oracle、MySQL、SQLServer、DB2等都属于SMP数据架构,这种架构一直统治了数据存储江湖40年之久,且在“小数据”管理领域至今依然经久不衰。

2、MPP数据架构
随着DT时代的到来,整个社会数据大爆炸。企业动辄就需要处理TB级数据量,而SMP这种共享资源的数据存储架构对于海量数据的处理显得越发吃力。于是,一种大规模、分布式数据存储架构出现了,它就是MPP (Massively Parallel Processing)架构,它可以将查询分散到不同节点并行执行,显著地提高了数据查询的性能,MPP的出现为数据仓库和数据分析平台提供了出色的解决方案。MPP数据架构的代表有:Redshift、Terdata、GreenPlum、Vertica等。

3、Hadoop数据架构
数据的激增,带动了数据架构的变革,以Hadoop、spark为代表的开源数据库产品,对传统SQL数据库带来了巨大的影响和冲击。Hadoop的特点是不仅能够存储和处理结构化数据,还能够对半结构化数据、非结构化数据的进行采集、存储、管理和使用。Hadoop不是单一产品,而是一个庞大的软件生态系统,部署通常需要熟练掌握一系列工具,包括HDFS,Yarn,Spark,Impala,Hive,Flume,Zookeeper和Kafka等等。

4、云原生数据架构
云计算的出现和发展,让企业 IT 基础设施云化,应用转向云端。与此同时,行业内也出现了云原生架构的数据库,其核心是充分发挥云基础设施带来的各种资源弹性的优势,通过将计算和存储分离,提高数据库资源配置效率,实现计算和存储弹性扩展,按需分配,为客户带来超高的ROI。
以亚马逊云科技的云原生数据仓库Redshift为例,Redshift采用存算分离的云原生架构,底层数据是在S3上,支持存储和计算资源的完全独立扩展、自动伸缩,使得 Redshift 具备大数据量下的高并发计算能力。值得一提的是Redshift 还支持机器学习算法,用户可以用SQL方式直接创建机器学习模型,这让数据分析挖掘变得更加简单。



--

02

大数据所面临的主要挑战

“大数据蕴含大价值”,这是毋庸置疑的。对企业而言,尽管大数据发展到现在,已经有了一定的技术和商业积累,但还有很多难题等待我们解决。在众多的难题中,亟待解决的主要挑战有:运维挑战、成本挑战和安全挑战。
1、大数据的运维挑战
云计算、大数据技术的发展,尤其是开源Hadoop体系的应用,让数据运维工作迎来了巨大的挑战。首先,企业普遍缺乏掌握大数据技术的专业化人才,很多情况下,企业负责数据人员既要做需求,又要做开发,还要做运维。情况好一点的,将大数据开发和运维剥离出来,但是面对庞大的Hadoop体系和不断的技术发展,让大数据运维变得越来越困难。其次,随着数据量和数据应用的激增,交付运维的东西也会越来越多。大数据运维不仅是服务启停、监控、告警、作业调度等浅层次的运维工作,更多的需要肩负起性能调优、资源伸缩、故障处理等工作,以确保大数据的稳定运行。

2、大数据的成本挑战
对于企业而言,大数据项目的部署有时候给企业带来的不是“大价值”,而是“大成本”。首先,企业需要考虑的是新增硬件的费用,例如:机房、服务器、存储以及电力消耗等。其次,在软件方面,企业尽管可以选用开源的Hadoop体系来搭建大数据平台,但也不得不为大数据的设计开发和日常运维付费。当然,也有企业选择了云数据架构解决方案,但是在购置云服务时,沿用过去的本地化部署的“超配”思维,资源过度配置,不必要的容量以及环境的可见性不良等问题,导致了云计算成本失控。

3、大数据的安全挑战
大数据的安全问题,一直是业内的一个难题。大数据所存储的数据非常巨大,也非常容易被黑客盯上。企业采用分布式数据架构进行存储,而这种架构数据存储的路径视图相对清晰,导致数据保护相对简单,黑客较为轻易利用相关漏洞,实施不法操作。甚至有的企业有 “开源等于安全” 的错误认知,于是积极拥抱开源软件。事实上,开源软件的漏洞并不少,而由此引发的数据安全和泄露问题也在逐年攀升。
--

03

寻求解决方案,积极应对挑战

大数据的3大挑战,是当今每个企业不得不面对的问题。但要如何应对,有没有具体的解决方案?
近日,针对这个问题,笔者与在亚马逊云科技任数据架构师的朋友will(英文名)进行了深度交流,will给出的解决方案是——Serverless data,他认为Serverless data将是基于云原生数据服务的下一代技术架构的新常态
说实话,对于Serverless我倒是听过,但什么是Serverless data服务,以及它是否真的可以解决大数据的挑战,我却是丈二和尚摸不着头脑,于是只能虚心请教!在一番交杯换盏、深度交流之后,对于这个全新的数据架构,我终于有了一定的认知,于是迫不及待分享给大家。
1、先说一说什么是Serverless
Serverless是一种云计算架构模式,也称为无服务器计算。这个术语最早出现在 2012 年左右的一篇文章里,作者 Ken Fromm 对它的解释是:Serverless一词并不意味着不再涉及服务器,它只是意味着开发人员不再需要考虑那么多的物理容量或其他基础设施资源管理责任。通过消除后端基础设施的复杂性,无服务器让开发人员将注意力从服务器级别转移到任务级别。
Serverless是一种事件驱动的计算模型,开发者不需要关心底层的服务器和基础设施,只需要编写处理逻辑代码,并将其上传到云服务提供商的平台上。这种架构模式具有高度的可扩展性、灵活性、可靠性和低成本等优点,适合于处理复杂的高并发应用场景。
据朋友介绍,亚马逊云科技是Serverless技术的开创者和引领者。虽然我知道华为、阿里、腾讯也都推出了自己的Serverless产品,但朋友说亚马逊云科技在这个领域全程领跑。没有实质证据,我就不反驳他了,哈哈哈!

2、再说说什么是Serverless data
Serverless data是指一种无服务器架构的数据处理方式,它利用云服务提供商的基础设施和平台服务,以事件驱动的方式来执行和管理数据处理任务。在Serverless数据处理中,开发者不需要关注服务器的运维和部署,只需要编写处理逻辑代码,将其部署到云服务提供商的平台上,然后通过事件触发器来触发处理任务的执行。这种处理方式具有高可扩展性、高可靠性、低成本等优点,适合于处理大规模、复杂的数据处理任务。以Serverless架构的数据库为例,它的工作原理如下:



3、Serverless data能够解决的问题
在听完will对Serverless data的介绍,我大致理解Serverless data在数据计算和存储方面确实有一定的优势,但will还提到了亚马逊云科技的全线Serverless data,据说可以有效解决企业数据管理和应用中的各种挑战和问题。
“啥是全线Serverless data?它到底能解决哪些问题?” 在我的不断追问之下,will给出了如下回答:
第一,Serverless data无需运维。使用 Serverless Data,用户无需关心服务器、操作系统、网络配置等底层细节,只需要编写代码,托管数据库服务或数据分析服务,它会自动托管运行环境,为用户提供高可用的计算资源和弹性扩缩容能力,从而免去了传统架构中的服务器运维成本和风险。
第二,Serverless data可以有效降低IT成本。使用 Serverless Data,用户只需要在需要时启动服务,无需预先为未来的峰值流量或访问量准备资源,也无需为不使用的空闲资源付费。简单来讲就是,Serverless data不需要用户预留集群容量,而是根据任务需求实现资源的自动伸缩,从而提高了资源利用率和成本效益,避免资源的浪费,有效降低企业的 IT 成本。
第三,Serverless data支持数据的实时处理。Serverless data可以通过事件触发器和调度器,自动触发和调度数据处理任务的执行,响应实时事件,处理实时数据流并生成实时数据结果。
第四,Serverless data支持数据治理。Serverless data可以通过编写数据处理逻辑代码,对数据进行清洗、转换和格式化等操作,让企业的数据资源转化为数据资产。云服务厂商也会提供一些列基于Serverless架构的数据治理和管理工具,支持对企业数据进行管理、监控和维护。在数据安全防护方面,利用云服务厂商的安全防护体系,可以有效保证数据的安全和隐私。
第五,Serverless data还能支持数据分析和挖掘。以亚马逊为代表云服务厂商在数据分析和挖掘方面也提供了一系列的Serverless架构的产品和工具,利用这些工具,可以对大量数据进行分析、挖掘和可视化,以发现数据中的有价值信息,让数据为业务赋能,助力企业实现数字化转型。
第六……
第七……
吧啦吧啦……&*#¥#@~##!
will这个技术控就是这样,聊起技术来没完没了。虽然我自认为技术也还行,但跟他比起来还是自愧不如……
--

04

亚马逊云科技 Serverless Data

通过这次与will的交流,我确实也学到了不少东西,对 Serverless 和 Serverless Data 也有了更深的认知。临别之际,他丢下了一个亚马逊云科技 Serverless 服务介绍材料。让我们一起来看一下号称引领 Serverless 技术发展的亚马逊云科技,在数据服务这个领域到底有哪些无服务器的服务,以及能够给企业带来哪些价值!



亚马逊云科技 Serverless Data 发展历程

这张图整体介绍了亚马逊云科技在Serverless data领域的发展历程,从图中不难看出,其早在2012年就开始布局Serverless data了。
2012年,发布了Amazon DynamoDB这款无服务架构的数据库服务。据说这款产品性能和体验真的不错, 这是一个键/值和文档数据库,具备毫秒级性能,支持 PB 级数据和每秒数千万的读写请求。
2013年,Amazon Kinesis发布,这是一款消息流处理的Serverless服务——可以作为一个可扩展、伸缩的消息流服务去支撑流计算的场景。它可以收集、处理和分析实时数据流,并将数据流转发到多个目标,以支持各种实时应用程序和工具。
2014年,推出了著名的 Amazon Lambda 服务。Lambda 是一种高度可用、无服务器、事件驱动的计算服务,让您无需预置或管理服务器或集群即可运行代码。Amazon Lambda 服务推出不久,谷歌和微软等企业的相似服务进入市场,“Serverless无服务器”才逐渐成为行业“热词”。



亚马逊云科技 Serverless Data 全景图

2016年,推出Amazon Quicksight产品,这是一款基于Serverless架构的商务智能软件,它可以帮助用户轻松地从各种数据源中获取洞察,并使用可视化工具和仪表板进行数据分析和报告。QuickSight还可以自动化数据可视化和分析过程,以提高工作效率和准确性。
2018年,Amazon Aurora Serverless发布。它是一种全托管的、按需自动缩放的关系型数据库服务。它可以根据应用程序的需求自动扩展计算和内存容量,适用于具有不可预测或高度可变工作负载的应用程序。这种服务只会按实际使用的数据库资源进行计费,无需进行容量规划和前期成本投入。这种模式大大降低了企业采购云服务的成本。
2019 年,发布了Serverless数据湖管理工具 —— Amazon Lake Formation,它可以帮助企业快速配置出自己的数据湖。
2021年,亚马逊云科技又一口气发布了三款Serverless架构的数据分析服务,分别是流式数据管道Amazon MSK Serverless,大数据分析平台Amazon EMR Serverless,数据仓库Amazon Redshift Serverless。
2022年,Amazon OpenSearch Serverless发布,这是一款无服务器的日志分析引擎。它的发布代表着在数据分析领域,亚马逊云科技已经实现了“全线Serverless架构”。
2023年3月30日,亚马逊云科技计划要搞一个线上线下同步进行的科技创新大会。这一次亚马逊云科技在Serverless Data方面又能给我们带来哪些惊喜呢?让我们拭目以待!


点击下方链接,查看大会详情
亚马逊云科技创新大会报名入口_Serverless技术大会 - 亚马逊云科技

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评5

gonet8 2023-3-29 08:14:31 显示全部楼层
转发了
回复

使用道具 举报

ybula 2023-3-29 08:15:16 显示全部楼层
转发了
回复

使用道具 举报

顽皮猴 2023-3-29 14:00:14 显示全部楼层
只看文字不过瘾啊~
回复

使用道具 举报

caonmeng 2023-3-29 19:18:48 来自手机 显示全部楼层
优质内容,应该长期发下去。别看了,就说你呢。
回复

使用道具 举报

禾禾禾禾 2023-3-30 07:00:27 来自手机 显示全部楼层
顶起顶起顶起
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies