1、什么是Linux
Linux是一种操作系统,普通市面上只要windows、Linux、Mac OS X、Unix这四种系统,而我们往常运用最多的系统是windows系统。 2、为什么要学习Linux
① 大数据相关软件都是在Linux上运转的。
② 掌握了Linux的基础,可以疾速掌握后面的大数据处理技术。
三、大数据技术框架学习
1、有哪些次要学习的技术框架
① 入门学习:CentOS、Maven
② 进阶学习:HDFS、MapReduce、Yarn、Hbase、MongoDB、Redis、Flume、Scala、Kafka、Spark、Hive
③ 扩展学习:Flink、ES、Oozie 2、为什么学习这些技术框架
① 处理大数据需求了解这些框架的作用及基本环境的搭建,并且纯熟运用这些框架可以处理大数据。
② CentOS是社区企业操作系统,一个基于Linux系统提供源代码的平台;Maven次要处理导入Java类依赖的jar,编译Java项目的次要成绩,管理jar包。学习这两个次要是为了更好的学习并上手后面的大数据技术框架。
③ Hadoop的框架最核心的设计就是:HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。
④ Yarn是一个分布式程序的运转调度平台,有两大核心角色Resource Manager及Node Manager,前者接受用户提交的分布式计算程序,并为其划分资源并管理、监控各个Node Manager上的资源状况,以便于平衡负载;后者管控它所在机器对的运算资源,担任接受前者分配的义务,创建容器、回收资源。
⑤ Hive和Hbase基本是大数据仓库的标配,要回用、懂调优、缺点排查。
⑥ MongoDB是一种基于分布式文件存储的数据库,由C++言语编写,旨在为WEB运用提供可扩展的高功能数据存储处理方案。
⑦ Redis是一个单线程的NoSQL数据库,次要用来做数据缓存的,普通大型网站的运用和数据库之间的那一层就是Redis。
⑧ Flume是用来做数据采集的。
⑨ Kafka是一个分布式的音讯系统,可以高效并实时的吞吐数据,以及经过分布式集群及数据复制冗余机制完成数据的安全。
⑩ Spark作为大数据计算的主流第二代框架,相对于前代的MapReduce计算功能得到极大提升,在主流市场遭到重用,作为大数据开发者,对于Spark一定要深化学习,掌握透彻。
⑪ Flink设计为在一切常见的集群环境中运转,以内存速度和任何规模执行计算,适用于一切企业。
⑫ ES全称为Elasticsearch,是一个基于Lucense的搜索服务器;
⑬ Oozie是服务于Hadoop生态系统的工作流调度工具。