找回密码
 立即注册
搜索

一则关于大数据的要闻:大数据生于2006,卒于2019!这是真的吗?

由于关注的重心从我们搜集数据的方式转向实时处理数据,大数据时代即将终结。大数据如今是支持多云、机器学习和实时分析这几个新时代的业务资产。

大数据时代生于2006年4月1日,卒于2019年6月5日






大数据时代终结于2019年6月5日,当时Tom Reilly宣布即将从Cloudera辞职,随后该公司市值应声下跌。加上MapR前不久宣布将于6月下旬关门大吉——这将取决于MapR能否找到买家来继续运营,2019年6月表明了这个理想:Hadoop推进的大数据这个早期时代已宣告结束。大数据会因在这几方面起到的作用而被世人铭刻:促使社交媒体末尾占主导地位,从根本上改变企业在处理多出好几个数量级的数据方面的理念,以及澄清分析数据、数据质量和数据管理的价值,不断评价作为企业资产的数据。

假如为大数据时代拟写某种意义上的悼词时,必需要强调一下:大数据技术实践上并没“死”,但第一代基于Hadoop的大数据已达到成熟的程度,它已在企业数据界确立了波动的角色。大数据不再是有限增长的炒作周期的一部分,而是一种老牌技术。






大数据的诞生

大数据时代始于ApacheHadoop在2006年的亮相,开发人员和架构师将此工具视为有助于处理和存储多结构化数据和半结构化数据。企业在数据方面的理念发生了根本性转变,并不只限于传统企业数据库的ACID(原子性、分歧性、隔离性和持久性),导致数据运用场合发生了变化,许多公司看法到以前丢弃或保存在静态归档中的数据实践上有助于了解客户行为、采取举动的倾向、风险要素以及复杂的组织、环境和商业行为。Cloudera这款商业发行版推出后,Hadoop的商业价值在2009年末尾得到确立,MapR、Hortonworks和EMC Greenplum(如今的Pivotal HD)紧随其后。虽然分析师们预测大数据这个潜在市场的规模高达500亿美元或更多,但Hadoop这种分析工具最终在最近十年遭到了质疑。

Hadoop在企业界面临的应战

虽然Hadoop在经过批处理支持大型存储和ETL(提取、转换和加载)作业以及支持机器学习义务方面大有价值,但它在支持公司和大型组织用来管理日常运营的较为传统的分析工作方面并非最佳选择。Hive、Dremel和Spark等工具在Hadoop下面运用以支持分析,但Hadoop从未变得足够快,无法真正取代数据仓库。

Hadoop还面临这样的应战:NoSQL数据库和对象存储提供商在处理Hadoop最后旨在协助处理的部分存储和管理难题方面获得了停顿。随着工夫的推移,在Hadoop上支持业务延续性面临应战,加上支持实时、地理空间及其他新兴的分析运用场合方面缺乏灵敏性,这使得Hadoop面对海量数据时很难在批处理之外大有作为。

此外,一朝一夕,许多公司末尾发现大数据难题越来越与此有关:支持一系列广泛的数据源,并迅速调整数据形式、查询、定义和上下文,新的运用程序、平台和云基础设备供应商就表现了这一点。为了克制这个应战,分析、集成和复制就必须变得更矫捷更疾速。许多供应商纷纷创办就表现了这个应战,包括:

分析处理方案:比如ClearStory Data、Domo、Incorta、Looker、FineBI、Microsoft Power BI、Qlik、Sisense、Tableau和ThoughtSpot

数据管道供应商:比如Alooma、Attunity、Alteryx、Fivetran和Matillion

数据集成供应商:包括Informatica、MuleSoft、SnapLogic、Talend和TIBCO(后者还仰仗其Spotfire产品组合角逐分析范畴)。

假如从收买或融资的角度来看,许多这些公司似乎都备受注目,这绝非巧合。最近的例子包括但不限于:

ThoughtSpot在2018年5月完成1.45亿美元的D轮融资

Sisense在2018年9月完成8000万美元的E轮融资

Incorta在2018年10月完成1500万美元的B轮融资

Fivetran在2018年12月完成1500万美元的A轮融资

Looker在2018年12月完成1.03亿美元的E轮融资

TIBCO在2018年12月收买Orchestra Networks

Logi Analytics在2019年2月收买Jinfonet

谷歌在2019年2月收买Alooma

Qlik在2019年2月收买Attunity

Informatica在2019年2月收买AllSight

TIBCO在2019年3月收买SnappyData

Alteryx在2019年4月收买ClearStory Data

Matillion在2019年6月完成3500万美元的C轮融资

谷歌在2019年6月斥资26亿美元收买Looker

Salesforce在2019年6月斥资157亿美元收买Tableau

Logi Analytics在2019年6月收买Zoomdata

这些处理方案的成功表明了日益需求分析师、数据和平台灵敏性,以便面对诸多云和数据源改进数据的上下文分析价值。2019年会更闹猛,由于其中许多公司归私募股权公司一切,或者已获得大量的风投资金,需求尽快成功加入,协助资助将来的风投基金。

随着大数据的消逝,我们进入到了后大数据时代,包括多云时代、机器学习时代以及实时和无处不在的上下文时代。

多云时代恰恰表明日益需求基于现有的各种运用系统跨多云支持运用软件和平台,也日益需求支持持续交付和业务延续性。“某项义务有一个运用软件”这种观念导致了企业中每个员工平均有一个SaaS运用软件的业务环境,这意味着每家大企业在为数千个SaaS运用软件支持数据和流量。后端容器化这个趋向导致支持按需和峰值运用环境的存储和工作负载环境日益分散化和专业化。

机器学习时代专注于分析模型、算法、模型训练、深度学习以及算法和深度学习技术的伦理。机器学习需求处理创建干净数据供分析所用所需的大量相反工作,但还需求另外的数学、业务和伦理上下文以创建持久的长期价值。

实时和无处不在的上下文恰恰表明,从分析的角度和交互的角度来看,日益需求及时的更新。从分析的角度来看,公司分析处理仅仅每周更新一次或每天更新一次已不够。员工如今需求近乎实时的更新,否则有能够做出蹩脚的公司决策,这些决策在制定的那一刻就已过时或掉队了。有效运用实时分析需求广泛的业务数据,以提供适当的全体上下文以及供针对数据按需执行的分析所用。无处不在还表明了交互的兴起,包括物联网提供表明环境和机械活动的更多边缘观察信息,以及仍在发展中的扩展理想(Extended Reality,包括加强理想和虚拟理想)提供身临其境的体验。为了提供这种级别的交互,必须以交互的速度分析数据,能够短至300-500毫秒,以提供有效的行为反馈。

随着大数据时代走到止境,我们如今可以少关注搜集大量数据的机制,多关注处理、分析海量数据并与之实时交互方面的有数应战。我们迈入大数据驱动的新时代时,请牢记以下几个概念。

首先,Hadoop在企业数据界仍占有一席之地。Amalgam Insights估计,MapR最终会被一家以管理IT软件出名的公司收买,比如BMC、冠群或MicroFocus;并以为Cloudera已采取了措施,不只限于企业Hadoop,以支持数据的下几个时代。但技术的步伐不可阻挠,Cloudera的成绩在于它的举动能否够快、随势而变。Cloudera在将其企业数据平台完善成下一代洞察力和机器学习平台方面面临数字化转型应战。过去几十年,公司可以为转型敲定工夫表。如今正如我们从亚马逊、Facebook和微软等公司看到的那样,仅仅为了活命,成功的科技公司必须预备好每十年就要转型,能够甚至牺牲掉本人的部分业务。

其次,对多云分析和数据可视化的需求比以往任何时分都要大。谷歌和Salesforce刚斥资180亿美元收买了Looker和Tableau,那些收买基本上是针对颇具规模和支出增长的公司的市场价值收买。会投入更多的巨额资金,以克制这一应战:针对众多数据源提供分析技术,并支持与多云有关的日益分散且多样的存储、计算和集成需求。这意味着企业需求慎重地搞清楚数据集成、数据建模、分析及/或机器学习/数据迷信团队可以在多大程度上应对这个应战,由于处理和分析异构数据变得越来越困难、复杂,但要支持战略业务需求并将数据用作真正的战略优势又势必需求这么做。而仅看国内发展,企业对多云分析和数据可视化的需求也是一样剧增。2006年成立的国产BI软件厂商帆软软件自2016年300人左右的团队短短三年内长大到如今的1100余人,据知为了应对更多的市场需求其团队还在不断扩展。这样的长大速度源自市场需求的增多和帆软对于市场需求走势的判别。

第三,机器学习和数据迷信是下一代分析技术,需求各自做好新的数据管理工作。大规模创建测试数据、合成数据和掩蔽数据,以及数据因循、管理、参数和超参数定义以及算法假设,这些都超出了传统大数据假设的范畴。这里最重要的考量要素是,运用由于种种缘由未能很好地服务于企业的数据:样本量小、缺乏数据源、数据定义不明晰、数据上下文不明白,或者算法和分类假设不准确。换句话说,不运用失实的数据。失实的数据会导致有成见、不合规、不准确的结果,还能够导致诸多成绩:比如Nick Leeson在1995年导致巴林银行(BaringsBank)倒台,或法国兴业银行因Jerome Kerviel精心操纵买卖而遭受70亿美元的买卖损失。AI如今是新的潜在“流氓买卖者”,需求得到适当的管理、管理和支持。

第四,需求将实时和无处不在的上下文既视为协作和技术上的应战,又视为数据应战。我们正进入这样一个世界:每个对象、流程和对话都可以用附加的上下文加以标记、标注或加强,可以实时处理数GB的数据,以生成简单的两个单词警报,能够就像“减慢速度”或“立刻购买”这么简单。我们看到“数字孪生”(digital twin)这个概念方兴未艾:在工业界,PTC、GE及其他产品生命周期和制造公司为设备创建数字孪生;而在销售界,Gong、Tact和Voicera等公司借助额外的上下文以数字方式记录、分析和加强模拟对话。

结论

因此,大数据时代已宣告结束。但在此过程中,大数据本身已成为IT的一个核心方面,并引发了一系列新时代,每个时代将来一片光明。投入于大数据的公司应该将这些投入视作将来成为实时、加强和交互型互动公司的重要基础。随着大数据时代走到止境,我们如今预备将整个大数据用作业务资产,而不只仅是炒作,从而支持基于作业的上下文、机器学习和实时交互。

关于国内对大数据行业发展的讨论也是不断没有中止,而对于实时、加强和交互型的数据分析,对在大行业背景下小行业的场景化运用,帆软每年都会组织国内数据行业规格最高的一场听觉盛宴,近千家企业高管参与讨论。针对数据管理和预备、数据发掘、数据人才培育等多个部分停止深度讨论。本次大会以“数据有引力”为主题,以国内如今的大行业发展为背景,真正来落地数据对企业的真实价值,旨在协助更多的企业对“已死的大数据”重新看法,从以上四个方面来使得数据建设愈加落地。

码字不易,假如您觉得文章写得不错,

请您 1.关注作者~ 您的关注是我写作的最大动力

2.私信我“大数据”

我将与您分享一套最新的大数据学习资源和全套开发工具

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

华夏女孩 2019-12-10 20:49:58 显示全部楼层
楼猪V5啊
回复

使用道具 举报

再来一瓶 2019-12-11 14:34:48 显示全部楼层
站位支持
回复

使用道具 举报

海角蝶恋花 2019-12-12 16:31:58 显示全部楼层
好,很好,非常好!
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies