门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
请选择
进入手机版
|
继续访问电脑版
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
智能技术
›
大数据
›
大数据简历
返回列表
大数据简历
[复制链接]
wubin123
2022-11-15 08:55:35
显示全部楼层
|
阅读模式
一、大数据时代
根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革
大数据时代2010年开启,中国大数据元年为2013年。
存储设备容量不断增加
CPU处理能力大幅提升
网络带宽不断增加
数据产生方式:
运营式系统阶段➡用户原创内容阶段→感知式系统阶段
二、大数据的四个特性
大数据4V概念:大量化(volume),快速化(velocity),多样化(variety),价值密度比较低(value)。
1、数据量大(volume)
根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)
人类在最近两年产生的数据量相当于之前产生的全部数据量
预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍
2、数据类型繁多(velocity)
大数据是由
结构化
和
非结构化数据
组成的
10%的结构化数据,存储在数据库中
90%的非结构化数据,它们与人类信息密切相关
3、处理速度快(variety)
从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少
1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同
4、价值密度低(value)
价值密度低,商业价值高
以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值
三、大数据的影响
图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式。
在思维方式方面,大数据完全颠覆了传统的思维方式:
全样而非抽样
效率而非精确
相关而非因果
四、大数据关键技术
数据采集
数据存储和管理
数据处理与分析
数据隐私和安全
两大核心技术:
1.分布式存储
GFS\HDFSBigTable\HBaseNoSQL(键值、列族、图形、文档数据库)NewSQL(如:SQL Azure)
2.分布式处理
MapReduce
五、大数据计算模式
六、代表性大数据技术
1.Hadoop
MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce。
编程容易,不需要掌握分布式并行编程细节,也可以很容易把自己的程序运行在分布式系统上,完成海量数据的计算。
MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处理。
YARN的目标就是实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架YARN,在YARN之上可以部署其他各种计算框架。
由YARN为这些计算框架提供统一的资源调度管理服务,并且能够根据各种计算框架的负载需求,调整各自占用的资源,实现集群资源共享和资源弹性收缩。
可以实现一个集群上的不同应用负载混搭,有效提高了集群的利用率。
不同计算框架可以共享底层存储,避免了数据集跨集群移动。
2.Spark
3.Flink
4.Beam
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
回复
使用道具
举报
大神点评
2
inmyhome
2022-11-15 08:56:13
显示全部楼层
转发了
回复
使用道具
举报
我们不知道
2022-11-18 07:06:33
显示全部楼层
传说中的沙发???哇卡卡
回复
使用道具
举报
发表新帖
回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
本版积分规则
发表回复
回帖后跳转到最后一页
wubin123
注册会员
0
关注
0
粉丝
16
帖子
Ta的主页
发布
加好友
最近发表
2023年全球智能可穿戴腕带出货量及竞争格局分析
智能穿戴概念8日主力净流出24.84亿元,光启技术、立讯精密居前
智能穿戴概念11日主力净流入5.62亿元,三六零、兆易创新居前
智能穿戴概念10日主力净流出23.94亿元,立讯精密、中兴通讯居前
智能穿戴概念9日主力净流入6998.51万元,水晶光电、九安医疗居前
云天励飞豪掷1.8亿收购智能穿戴IDH方案商,引领行业新潮流
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们