智客公社

标题: 大数据已死!从业10年老哥爆文抨击:这套唬不住客户了 [打印本页]

作者: wispering    时间: 2023-2-18 12:47
标题: 大数据已死!从业10年老哥爆文抨击:这套唬不住客户了
詹士 发自 凹非寺
量子位 | 公众号 QbitAI
“大数据已死。”

说这话的,正是来自Google十年员工,数据分析产品BigQuery创始成员之一,Jordan Tigani。


[attach]801174[/attach]

在最新发布的一篇博文中,他表示——

大数据概念在十多年前开始兴起,时至今日,销售们仍用“海量数据带来指数级增长曲线”说法,来勾起(唬住)客户为相关服务买单的欲望,否则就将被数字时代抛弃。作者自己也曾是其中之一。

但现在,Jordan Tigani不仅认为这种说法行不通,还称——“数据大小根本不是问题所在。”

那么问题在哪?他认为,我们已无需担心数据大小,而应专注于如何使用数据来做出更好的决策。

如此言论之下,也吸引了不少业内人士的围观和热议。


[attach]801175[/attach]

他的上述观点有何依据?

不妨从证明过程看起。

值得注意的是,作者表示,证明过程中相关图表曲线并不是严格参考了数据,而是凭记忆手绘的,这位资深从业者强调——重要的是曲线形状趋势,而非确切数值。

“恐吓”客户的话术出问题了

Jordan Tigani先从一张PPT聊开去。

这是一条数据量随时间增长,呈现指数级增长的曲线,在过去十年,几乎每个大数据产品推销都从该曲线开启。他曾就职的谷歌、SingleStore都不例外。


[attach]801176[/attach]

亮出曲线后,销售们会顺势鼓吹产品,告诉客户——大数据时代来了!你需要我手里的产品服务!

但Jordan Tigani认为,多年来的事实已证明,处理数据的老方法已经行不通了,且大多数应用程序也不需要处理大量数据。

一个佐证是近些年传统架构的数据管理系统复兴,诸如SQLite、Postgres、MySQL都增长强劲,与之对比,“NoSQL”甚至“NewSQL”增长却停滞不前。

一个明显例子是MongoDB,它是排名最高的NoSQL类数据库,也同样是最火的横向扩展类数据库,此前几年MongoDB增长势头强劲,但最近规模却小幅下降,且与MySQL等主流数据库仍存差距。

Jordan Tigani认为——如果大数据真是未来,那情况应该不一样。


[attach]801177[/attach]

鼓吹大数据时代就在眼前的另一个说法是——每个人都会被产生的数据淹没。

但Jordan Tigani在研究客户中发现绝大多数客户总数据存储量不超过1TB,即便大型企业,其数据量级也soso。

根据他的从业经验,所服务的最大客户数据存储量是第二大客户的2倍,第二大客户又是第三位的2倍。

这样一来,客户数据大小与数量服从幂律分布。

只有极少数客户拥有PB级数据,成千上万客户每月存储费用不超过10美元,而他们服务客户存储资源使用的中位数,连100GB都不到。


[attach]801178[/attach]

不仅作者本人这么认为,Gartner、Forrester等机构分析师及其他从业者也表示,大部分企业的数据库量级都小于1TB,且100GB是常态。

拿一家超千名客户的公司举例,即便每个客户每天下一个订单,里面包含100项数据,每天生成数据仍小于1字节,三年后是1GB,而要达到1TB,这家公司得做几千年生意。

另一个例子是之前作者接触了一家E轮独角兽公司,且还在快速成长中,但即便这样,他们的财务数据、客户数据、营销跟踪数据及服务日志加起来,也只有几GB。

就这,能叫大数据?


[attach]801179[/attach]

还不算完,即便看“已有”部分,也有问题。

由于现代云平台将存储与计算分开,两部分利用量级也有很大差距,即——数据存储增长速度,远大于计算资源需求增速。

具体来说,企业数据的存储量随时间推移,肯定是线性增加的,但大部分分析计算需求是针对近期数据,不可能一遍又一遍反复读取旧数据。因此,计算需求不会同步迅速增加。


[attach]801180[/attach]

Jordan Tigani的一个客户就是这样。

作为全球头部零售商,他们原有100TB本地数据,迁移到云上后,数据量变成了30PB,增加了300倍,如果计算资源需求也随之拉满,那他们在数据分析上的花费将达几十亿美元,但事实上,他们只花了很小一笔费用。

作者认为,大量计算服务不被需要,也就意味着前沿架构不太有必要,甚至分布式处理也Duck不必。


[attach]801181[/attach]

与之类似,分析数据的工作负载也远小于数据体量。

多数时候,人们往往只会查询前1小时、前1天或上周数据,较小的表会被频繁查询,但大表就不一定了。

在作者本人BigQuery工作经历中,数据量巨大的客户几乎从不查询大量数据,除非他们正在生成一些报告。

这种需求,也不要求性能优先,且仅是企业一周几十万个查询中的极少数。

正如下图,90%查询任务涉及的数据量级不超过100MB,仅1%超过10GB,且即便查询巨型表,数据库也可通过一定处理,减少计算量和延迟。


[attach]801182[/attach]

一个侧面佐证是——业内符合原本“大数据”定义的产品也在变少。

在当初,大数据的定义之一是“任何单机无法处理相关任务/场景需求”,比如00年代,数据工作负载对于单个商业计算机来说,带不动是常态。

但今天,一个AWS的标准实例所用到的物理服务器包含了64核及256GB RAM,如果为优化实例再多掏一点钱,又能在原基础上增加2个数量级RAM,这几乎覆盖所有工作负载需求。

既然大数据时代结束了,那是不是说,相关从业者要下岗了?

作者也提出了自己的看法——

结束了,但没完全结束。

具体来说,作者认为,大数据的另一重内涵是“当数据保存的支出小于其挖掘价值,那就应该放弃”,因而,我们需要判定哪些数据需要及时清除,以及背后的原因,这将成为数据工作的重要部分。

这当中,也包括不同时期同一数据以不同字段存储,需要有人来加以维护和留有记录。

此外,基于相关监管规定,很多类型数据(比如涉及个人隐私的电话号码)也需要定期清除。

再有,便是一些公司需要定期判断哪些旧数据要清理,以避免未来可能的法律风险。(手动狗头)

ChatGPT老板有不同看法

对于Jordan Tigani上述观点及论证,有网友表示支持,还联想到之前类似的工作经历。


[attach]801183[/attach]

也有网友表示:

当XX已死,说明它真实被认可的地方会被保留下来。


[attach]801184[/attach]

值得一提的是,并非所有人都赞同作者的观点。

尤其鉴于“XX已死”将话说得太满,有网友认为:

在近期AI大火之际,判决AI所依赖的大数据已死,也是挺敢说。


[attach]801185[/attach]

当红炸子鸡ChatGPT背后老板Sam Altman,此前在旧金山一次技术活动中,也谈过对大数据的看法,Sam认为——

AI研究领域取得令人印象深刻的进步,不仅依靠海量数据,同时更需要海量的计算。

上述观点不仅强调了海量数据重要性,对比Jordan Tigani所认为的“重存储轻计算”看法,正好相反。

另一个不同声音来自一位名叫Lewis Gavin的大数据与软件工程师,此前他曾在Medium上发文,主题也是围绕“大数据是否消亡”

他认为:

大数据不会死,只会变得更重要。

所给出理由是:一方面依据是全球生成的数据总量仍在加速增长,且细分领域中,处理“大数据”正成为常态。

基于此,Lewis Gavin认为——所谓“大数据死亡”,只是营销说法的消亡,但Big Data处理技术和应用仍存在,且它会成为习以为常的现象。

IDC于1月24日发布的一篇预测证明了大数据市场仍在增长,内容指出——

未来几年,全球大数据和分析软件市场将实现强劲增长,且具体到该板块各细分领域,未来几年增长率均为双位数。


[attach]801186[/attach]

有意思的是,有网友提出“大数据的死亡”并不是个技术话题。

他表示:数据之所以没发挥价值,其实是商界精英们往往忽略数据内蕴藏的结论。


[attach]801187[/attach]

另一位网友也表示赞同,还称:

自己曾开玩笑,数据科学家的工作其实不是搞分析,而是为高管们前瞻性观点提供有力证明。(手动狗头)


[attach]801188[/attach]

参考链接:
[1]https://motherduck.com/blog/big-data-is-dead/

[2]https://news.ycombinator.com/item?id=34694926
[3]https://twitter.com/jrdntgn/status/1622986160833437697
[4]https://towardsdatascience.com/big-data-will-be-dead-in-5-years-ef4344269aef
[5]https://www.bigcompute.org/speaker-series/fireside-with-sam-altman

— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
作者: 嘉和房地产小古    时间: 2023-2-18 12:47
因为用的太多,不再高大上。忽悠领导,需要用新词。
作者: 我忘了买化妆棉    时间: 2023-2-18 12:48
关键网页全是404,哪来的大数据!
作者: 李诚维权    时间: 2023-2-18 12:48
做的最差的就是淘宝大数据,没有之一,还不如不做,我买啥它推啥,多看两眼满屏幕全是铺天盖地,我刚买了一床被子货比三家,之后一个礼拜整个屏幕只有被子,吃的用的啥都看不到
之前我还有兴趣逛淘宝,自从有了猜你喜欢和自动把搜索过的置顶置前,我就啥也买不到了,要东西都得自己搜关键字,简直是买家杀手
作者: 智慧云天    时间: 2023-2-18 12:49
资本世界的游戏而已,一些人的谋财之道。国家统计局干好工作,看看市场销售情况便可知企业该怎么做了。凭数据分析就能算出命运、前程?能给你确定怎样做?
作者: 飞蝶VR    时间: 2023-2-18 12:50
“另一位网友也表示赞同,还称:自己曾开玩笑,数据科学家的工作其实不是搞分析,而是为高管们前瞻性观点提供有力证明。(手动狗头)”——这句经典。所以,有需求就有市场,大数据不死。
作者: 我是你野爹    时间: 2023-2-18 12:50
Google的数据源又不精准的,美帝保护个人隐私。我们单电商数据源就已经足够精准了,别看上面的架构和算法。看原料,就像做菜,美帝原材料都搞不明白做出来能吃吗?我们的不一样,就算做刺身不用加工都已经是足够美味了
作者: 正义午阳    时间: 2023-2-18 12:50
其实大数据的本质是反人类的,每个人都是活生生的人,不是一个冰冷的数据
作者: 专业维权888    时间: 2023-2-18 12:51
所有的数据全靠在用户不知情的情况下读取用户信息及安装后门程序主动收集用户信息,用户享受便利的同时是个人隐私完全暴露于他人面前。
简单来说,扔掉手机,关掉网络,大数据就白瞎。那些买个人信息的人甚至比你自己还清楚你的经济状况。
作者: 猫大宏    时间: 2023-2-18 12:51
存储的量级确实持续增长快,
但数据计算的需求,
上线后就基本没有增量了,
所以大数据的核心并不是资源和系统架构,而是抓取到有利用价值的数据,这取决于逻辑和算法
作者: 智能未来    时间: 2023-2-18 12:51
大数据以死,数据不会死,所谓学以致用,短期做短期目标,长期做长期目标,数据量和目标需要对等,死掉的大数据无非都是一些用大数据割韭菜的项目会死掉。死不死还是要看谁在怎么用。大数据无罪,有罪的是用的人。
作者: wangxiaoxi    时间: 2023-2-18 12:52
不论什么,数据只能做参考,差异化的服务与管理才是王道,天下大势都是分久必合,合久必分。何况是人这么复杂的生物。
作者: 你爱听的情话    时间: 2023-2-18 12:53
牛B吹的振天响
作者: 唯有的知己    时间: 2023-2-18 12:53
现在大数据就是资本收购底层的工具,你还没办法,哈哈
作者: zwh89    时间: 2023-2-18 12:54
大数据杀熟才是大数据的真相
作者: ctlMtMMm    时间: 2023-2-18 12:55
人家大数据是为了发现科技,我们大数据是为了盯人盯钱包,能一样么?
作者: q731705505    时间: 2023-2-18 12:56
基础数据真真假假假假真真[捂脸]
作者: cornil    时间: 2023-2-18 12:56
绝大部分所谓的大数据都是骗人
作者: 赤脚晓涛    时间: 2023-2-18 12:56
1字节一天,是靠你脑子记忆存储的吗?
“即便每个客户每天下一个订单,里面包含100项数据,每天生成数据仍小于1字节,三年后是1GB”
作者: 掌舵的鱼    时间: 2023-2-18 12:57
大数据分析结果反应了一种趋势,不能代表个体,但过去的已成现实,重要的还是近期的数据变化。数据分析有很多令人着迷的地方。
作者: 走镖小白菜    时间: 2023-2-18 12:58
[赞]
作者: 嗯哼嗯哼蹦擦侧    时间: 2023-2-18 18:47
very good
作者: 月子021    时间: 2023-2-19 07:00
为毛老子总也抢不到沙发?!!
作者: 叶赫那拉静    时间: 2023-2-19 13:06
想知道楼主的感受,怎么样?




欢迎光临 智客公社 (http://bbs.cnaiplus.com/) Powered by Discuz! X3.4