门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
大数据
›
300 秒带你吃透大数据
1
2
/ 2 页
下一页
返回列表
300 秒带你吃透大数据
[复制链接]
dandansweet
2024-1-6 13:25:03
显示全部楼层
|
阅读模式
作者 | 小枣君
责编 | 胡巍巍
本文经授权转载自鲜枣课堂(ID:xzclasscom)
这些年,大数据作为一个时髦概念,出现频率很高,
关注
度也很高。
对于很多人来说,当他第一次听到“大数据”这个词,会自然而然从字面上去理解——认为大数据就是大量的数据,大数据技术就是大量数据的存储技术。
但是,事实并非如此。
大数据比想象中复杂。它不只是一项数据存储技术,而是一系列和海量数据相关的抽取、集成、管理、分析、解释技术,是一个庞大的框架系统。
更进一步来说,大数据是一种全新的思维方式和商业模式。
今天这篇文章,就让我们花五分钟的时间,来深入了解一下,到底什么是大数据。
大数据的定义
首先,还是要重新审视大数据的定义。
行业里对大数据的定义有很多,有广义的定义,也有狭义的定义。
广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。
狭义的定义,是技术工程师给的——大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。
相比较而言,我还是喜欢技术定义,哈哈。
大家注意,关键词我都在上面原句加粗了哈!
要做什么?——获取数据、存储数据、分析数据
对谁做?——大容量数据
目的是什么?——挖掘价值
获取数据、存储数据、分析数据,这一系列的行为,都不算新奇。我们每天都在用电脑,每天都在干这个事。
例如,每月的月初,考勤管理员会获取每个员工的考勤信息,录入Excel表格,然后存在电脑里,统计分析有多少人迟到、缺勤,然后扣TA工资。
但是,同样的行为,放在大数据身上,就行不通了。换言之,传统个人电脑,传统常规软件,无力应对的数据级别,才叫“大数据”。
大数据,到底有多大?
我们传统的个人电脑,处理的数据,是GB/TB级别。例如,我们的硬盘,现在通常是1TB/2TB/4TB的容量。
TB、GB、MB、KB的关系,大家应该都很熟悉了:
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
而大数据是什么级别呢?PB/EB级别。
大部分人都没听过。其实也就是继续翻1024倍:
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
只是看这几个字母的话,貌似不是很直观。我来举个例子吧。
1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,或者是671部《红楼梦》小说。
1PB,需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听1900年。
1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。
阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。
EB还不是最大的。目前全人类的数据量,是ZB级。
1 ZB = 1024 EB (ZB - zettabyte)
2011年,全球被创建和复制的数据总量是1.8ZB。
而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。
数据量不仅大,增长还很快——每年增长50%。也就是说,每两年就会增长一倍。
目前的大数据应用,还没有达到ZB级,主要集中在PB/EB级别。
大数据的级别定位:
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
1 ZB = 1024 EB (ZB - zettabyte)
数据的来源
数据的增长,为什么会如此之快?
说到这里,就要回顾一下人类社会数据产生的几个重要阶段。
大致来说,是三个重要的阶段。
第一个阶段,就是计算机被发明之后的阶段。尤其是数据库被发明之后,使得数据管理的复杂度
大大
降低。各行各业开始产生了数据,从而被
记录
在数据库中。
这时的数据,以结构化数据为主(待会解释什么是“结构化数据”)。数据的产生方式,也是被动的。
第二个阶段,是伴随着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容。
随着互联网和移动通信设备的普及,人们开始使用博客、facebook、youtube这样的社交网络,从而主动产生了大量的数据。
第三个阶段,是感知式系统阶段。随着物联网的发展,各种各样的感知层节点开始自动产生大量的数据,例如遍布世界各个角落的传感器、摄像头。
经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的极速膨胀。
大数据的4Vs
行业里对大数据的特点,概括为4个V。前面所说的庞大数据体量,就是Volume(海量化)。除了Volume之外,剩下三个,分别是Variety、Velocity、Value。
我们一个一个来介绍。
Variety(多样化)
数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。
数据又分为结构化数据和非结构化数据。
从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。
例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。
而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。
在互联网领域里,非结构化数据的占比已经超过整个数据量的80%。
大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。
Velocity(时效性)
大数据还有一个特点,那就是时效性。从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。
我们还是用数字来说话:
就在刚刚过去的这一分钟,数据世界里发生了什么?
Email:2.04亿封被发出
Google:200万次搜索请求被提交
Youtube:2880分钟的视频被上传
Facebook:69.5万条状态被更新
Twitter:98000条推送被发出
12306:
184
0张车票被卖出
……
怎么样?是不是瞬息万变?
Value(价值密度)
最后一个特点,就是价值密度。
大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。
例如通过监控视频寻找犯罪分子的相貌,也许几TB的视频文件,真正有价值的,只有几秒钟。
2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯
记录
,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。
大数据的价值
刚才说到价值密度,也就说到了大数据的核心本质,那就是价值。
人类提出大数据、研究大数据的主要目的,就是为了挖掘大数据里面的价值。
大数据,究竟有什么价值?
早在
198
0年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明确提出:“数据就是财富”,并且,将大数据称为“第三次浪潮的华彩乐章”。
第一次浪潮:农业阶段,约1万年前开始
第二次浪潮:工业阶段,17世纪末开始
第三次浪潮:信息化阶段,20世纪50年代后期开始
进入21世纪之后,随着前面所说的第二第三阶段的发展,移动互联网崛起,存储能力和云计算能力飞跃,大数据开始落地,也引起了越来越多的重视。
2012年的世界经济论坛指出:“数据已经成为一种新的经济资产类别,就像货币和黄金一样”。这无疑将大数据的价值推到了前所未有的高度层面上。
如今,大数据应用开始走进我们的生活,影响我们的衣食住行。
之所以大数据会有这么快的发展,就是因为越来越多的行业和企业,开始认识到大数据的价值,开始试图参与挖掘大数据的价值。
归纳来说,大数据的价值主要来自于两个方面:
1 帮助企业了解用户
大数据通过相关性分析,将客户和产品、服务进行关系串联,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。
典型的例子就是电商。
像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期的时候,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。
通过这些数据,可以分析用户行为,精准定位目标客群的消费特点、品牌偏好、地域分布,从而引导商家的运营管理、品牌定位、推广营销等。
大数据可以对业绩产生直接影响。它的效率和准确性,远远超过传统的用户调研。
除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。
2 帮助企业了解自己
除了帮助了解用户之外,大数据还能帮助了解自己。
企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。
总而言之,“知己知彼,百战百胜”。大数据,就是为决策服务的。
大数据和云计算
说到这里,我们要回答一个很多人心里都存在的疑惑——大数据和云计算之间,到底有什么关系?
可以这么解释:数据本身是一种资产,而云计算,则是为挖掘资产价值提供合适的工具。
从技术上,大数据是依赖于云计算的。云计算里面的海量数据存储技术、海量数据管理技术、分布式计算模型等,都是大数据技术的基础。
云计算就像是挖掘机,大数据就是矿山。如果没有云计算,大数据的价值就发挥不出来。
相反的,大数据的处理需求,也刺激了云计算相关技术的发展和落地。
也就是说,如果没有大数据这座矿山,云计算这个挖掘机,很多强悍的功能都发展不起来。
套用一句老话——云计算和大数据,两者是相辅相成的。
大数据和物联网(5G)
第二个问题,大数据和物联网有什么关系?
这个问题我觉得大家应该能够很快想明白,前面其实也提到了。
物联网就是“物与物互相连接的互联网”。物联网的感知层,产生了海量的数据,将会极大地促进大数据的发展。
同样,大数据应用也发挥了物联网的价值,反向刺激了物联网的使用需求。越来越多的企业,发觉能够通过物联网大数据获得价值,就会愿意投资建设物联网。
其实这个问题也可以进一步延伸为“大数据和5G之间的关系”。
即将到来的5G,通过提升连接速率,提升了“人联网”的感知,也促进了人类主动创造数据。
另一方面,它更多是为“物联网”服务的。包括低延时、海量终端连接等,都是物联网场景的需求。
5G刺激物联网的发展,而物联网刺激大数据的发展。所有通信基础设施的强大,都是为大数据崛起铺平道路。
大数据的产业链
接下来再说说大数据的产业链。
大数据的产业链,和大数据的处理流程是紧密相关的。简单来说,就是生产数据、聚合数据、分析数据、消费数据。
每个环节,都有相应的角色玩家。
从目前的情况来看,国外厂商在大数据产业占据了较大的份额,尤其是上游领域,基本上都是国外企业。国内IT企业相比而言,存在较大的差距。
大数据的挑战
说了那么多大数据的好话,并不代表大数据是完美的。
大数据也面临着很多挑战。
除了数据管理技术难度之外,大数据的最大挑战,就是安全。
数据是资产,也是隐私。没有人愿意自己的隐私被暴露,所以,人们对自己的隐私保护越来越重视。
政府
也在不断加强对公民隐私权的保护,出台了很多法律。
在这种情况下,企业获取用户数据,就需要慎重考虑,是否符合伦理和法律。一旦违法,将付出极为沉重的代价。
此外,即使企业合法获取数据,也要担心是否会被恶意攻击和窃取。这里面的风险也是不容忽视的。
除了安全之外,大数据还要面临能耗等方面的问题。
换言之,如果不能很好地保护和利用手里的大数据,那么它就是一个烫手的山芋,有还不如没有。
本文系转载文章,仅代表作者观点,不代表CSDN立场。
【END】
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
大神点评
15
墨钰斌
2024-1-6 13:25:39
显示全部楼层
转发了
回复
使用道具
举报
gaozhzx
2024-1-6 13:26:08
显示全部楼层
这文章说的等于没说
回复
使用道具
举报
yangerdon89
2024-1-6 13:27:05
显示全部楼层
转发了
回复
使用道具
举报
唐僧是师傅
2024-1-6 13:27:10
显示全部楼层
其实举个实际例子最直接
回复
使用道具
举报
7168406
2024-1-6 13:27:15
显示全部楼层
转发了
回复
使用道具
举报
黄文彬
2024-1-6 13:27:51
显示全部楼层
转发了
回复
使用道具
举报
潘老师
2024-1-6 13:28:09
显示全部楼层
转发了
回复
使用道具
举报
隔壁老王的
2024-1-6 13:28:32
显示全部楼层
什么是大数据?
回复
使用道具
举报
will丽
2024-1-6 13:29:09
显示全部楼层
转发了
回复
使用道具
举报
下一页 »
1
2
/ 2 页
下一页
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
dandansweet
注册会员
0
关注
0
粉丝
5
帖子
Ta的主页
发布
加好友
最近发表
上海颁发首批无人驾驶车牌?系误读,识别标牌并非车牌
智能穿戴概念30日主力净流出14.08亿元,中兴通讯、大唐电信居前
青岛有屋科技取得一种安装组件及用于智能家居的集成控制装置专利
无人机和反无人机装备亮相中国航展
智能穿戴概念18日主力净流出74.39亿元,三六零、光启技术居前
“空中航母”来了!中国“九天”无人机亮相,机身这七个字不好惹
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们