给下周要面试的你一套大数据技术Hadoop面试题（附答案）

笑点来了 · 2018-12-13 08:34:32

单项选择题

a)NameNode　　b)Jobtracker　　c)Datanode　　d)secondaryNameNode

e)tasktracker

a)3 份　　b)2 份　　c)1 份 d)不确定

a)SecondaryNameNode

b)DataNode

c)TaskTracker

d)Jobtracker

a)Martin Fowler

b)Kent Beck

c)Doug cutting

a)32MB

b)64MB

c)128MB

a)CPU

b)网络

c)磁盘

d)内存

a)它是 NameNode 的热备

b)它对内存没有要求

c)它的目的是协助 NameNode 合并编辑日志，减少 NameNode 启动工夫

d)SecondaryNameNode 应与 NameNode 部署到一个节点

多选题

a)Puppet

b)Pdsh

c)Cloudera Manager

d)d)Zookeeper

a)假如一个机架出成绩，不会影响数据读写

b)写入数据的时分会写到不同机架的 DataNode 中

c)MapReduce 会根据机架获取离本人比较近的网络数据

a)数据经过 NameNode 传递给 DataNode

b)Client 端将文件切分为 Block，依次上传

c)Client 只上传数据到一台 DataNode，然后由 NameNode 担任 Block 复制工作

a)单机版

b)伪分布式

c)分布式

a)Cloudera manager

b)Tar ball

c)Yum d)Rpm

判别题

别走开，答案在后面哦!

答案单选题

a)NameNode　　b)Jobtracker　　c)Datanode　　d)secondaryNameNode

e)tasktracker

a)3 份　　b)2 份　　c)1 份 d)不确定

a)SecondaryNameNode

b)DataNode

c)TaskTracker

d)Jobtracker

此题分析：

hadoop的集群是基于master/slave形式，namenode和jobtracker属于master，datanode和tasktracker属于slave，master只要一个，而slave有多个SecondaryNameNode内存需求和NameNode在一个数量级上，所以通常secondary NameNode(运转在单独的物理机器上)和NameNode运转在不同的机器上。

JobTracker和TaskTrackerJobTracker 对应于 NameNodeTaskTracker 对应于 DataNodeDataNode 和NameNode 是针对数据存放来而言的

JobTracker和TaskTracker是对于MapReduce执行而言的

mapreduce中几个次要概念，mapreduce全体上可以分为这么几条执行线索：obclient，JobTracker与TaskTracker。

1、JobClient会在用户端经过JobClient类将运用曾经配置参数打包成jar文件存储到hdfs，并把途径提交到Jobtracker,然后由JobTracker创建每一个Task(即MapTask和ReduceTask)并将它们分发到各个TaskTracker服务中去执行。

2、JobTracker是一个master服务，软件启动之后JobTracker接收Job，担任调度Job的每一个子义务task运转于TaskTracker上，并监控它们，假如发现有失败的task就重新运转它。普通状况应该把JobTracker部署在单独的机器上。

3、TaskTracker是运转在多个节点上的slaver服务。TaskTracker自动与JobTracker通讯，接收作业，并担任直接执行每一个义务。TaskTracker都需求运转在HDFS的DataNode上。

a)Martin Fowler

b)Kent Beck

c)Doug cutting

a)32MB　　b)64MB c)128MB

(由于版本更换较快，这里答案只供参考)

a)CPU　　b)网络　　c)磁盘IO d)内存

该题解析：

首先集群的目的是为了节省成本，用廉价的pc机，取代小型机及大型机。小型机和大型机有什么特点?

1.cpu处理才能强

2.内存够大

所以集群的瓶颈不能够是a和d

3.网络是一种稀缺资源，但是并不是瓶颈。

4.由于大数据面临海量数据，读写数据都需求io，然后还要冗余数据，hadoop普通备3份数据，所以IO就会打折扣。

a)它是 NameNode 的热备

b)它对内存没有要求

c)它的目的是协助 NameNode 合并编辑日志，减少 NameNode 启动工夫

d)SecondaryNameNode 应与 NameNode 部署到一个节点。

多选题答案

a)Puppet

b)Pdsh

c)Cloudera Manager

d)Zookeeper

a)假如一个机架出成绩，不会影响数据读写

b)写入数据的时分会写到不同机架的 DataNode 中

c)MapReduce 会根据机架获取离本人比较近的网络数据

a)数据经过 NameNode 传递给 DataNode

b)Client 端将文件切分为 Block，依次上传

c)Client 只上传数据到一台 DataNode，然后由 NameNode 担任 Block 复制工作

该题分析：

Client向NameNode发起文件写入的央求。

NameNode根据文件大小和文件块配置状况，前往给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

a)单机版

b)伪分布式

c)分布式

a)Cloudera manager　　b)Tarball　　c)Yum　　d)Rpm

判别题答案

分析：此题的目的是考Ganglia的了解。严厉意义下去讲是正确。ganglia作为一款最常用的Linux环境中的监控软件，它擅长的的是从节点中按照用户的需求以较低的代价采集数据。但是ganglia在预警以及发生事情后告诉用户上并不擅长。最新的ganglia曾经有了部分这方面的功能。但是更擅长做正告的还有Nagios。Nagios，就是一款精于预警、告诉的软件。经过将Ganglia和Nagios组合起来，把Ganglia采集的数据作为Nagios的数据源，然后应用Nagios来发送预正告诉，可以完美的完成一整套监控管理的系统。

分析：它是可以被修正的Hadoop的基础配置文件是hadoop-default.xml，默许建立一个Job的时分会建立Job的Config，Config首先读入hadoop-default.xml的配置，然后再读入hadoop-site.xml的配置(这个文件初始的时分配置为空)，hadoop-site.xml中次要配置需求覆盖的hadoop-default.xml的系统级配置。

分析：Nagios是集群监控工具，而且是云计算三大利器之一

分析：SecondaryNameNode是协助恢复，而不是替代，如何恢复，可以查看

分析：第一套付费产品是Cloudera Enterpris，Cloudera Enterprise在美国加州举行的 Hadoop 大会 (Hadoop Summit) 上公开，以若干公有管理、监控、运作工具加强 Hadoop 的功能。收费采取合约订购方式，价格随用的 Hadoop 叢集大小变动。

分析：rhadoop是用R言语开发的，MapReduce是一个框架，可以了解是一种思想，可以运用其他言语开发。

分析：lucene是支持随机读写的，而hdfs只支持随机读。但是HBase可以来补救。HBase提供随机读写，来处理Hadoop不能处理的成绩。HBase自底层设计末尾即聚焦于各种可伸缩性成绩：表可以很“高”，有数十亿个数据行;也可以很“宽”，有数百万个列;程度分区并在上千个普通商用机节点上自动复制。表的形式是物理存储的直接反映，使系统有能够提高高效的数据结构的序列化、存储和检索。

此题分析：

NameNode 不需求从磁盘读取 metadata，一切数据都在内存中，硬盘上的只是序列化的结果，只要每次 namenode 启动的时分才会读取。

1)文件写入

Client向NameNode发起文件写入的央求。

NameNode根据文件大小和文件块配置状况，前往给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

2)文件读取Client向NameNode发起文件读取的央求。

分析：DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将一切存在的Block信息发送给NameNode。NameNode前往文件存储的DataNode的信息。Client读取文件信息。

这个有分歧：详细正在找这方面的有利材料。下面提供材料可参考。

首先明白一下概念：

(1).长衔接Client方与Server方先建立通讯衔接，衔接建立后不断开，然后再停止报文发送和接收。这种方式下由于通讯衔接不断存在，此种方式常用于点对点通讯。

(2).短衔接Client方与Server每停止一次报文收发买卖时才停止通讯衔接，买卖终了后立刻断开衔接。此种方式常用于一点对多点通讯，比如多个Client衔接一个Server.

hadoop只能阻止好人犯错，但是不能阻止坏人干坏事

分析：一旦Slave节点宕机，数据恢复是一个难题

分析：首先明白什么是RAID，可以参考百科磁盘阵列。这句话错误的地方在于太相对，详细状况详细分析。标题不是重点，知识才是最重要的。由于hadoop本身就具有冗余才能，所以假如不是很严厉不需求都装备RAID。详细参考第二题。

分析：首先我们知道什么是map 槽,map 槽->map slotmap slot 只是一个逻辑值 ( org.apache.hadoop.mapred.TaskTracker.TaskLauncher.numFreeSlots )，而不是对应着一个线程或者进程

hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)一致分配的内存在hadoop-env.sh中设置，参数为HADOOP_HEAPSIZE，默以为1000M。

分析：

首先明白引见，什么ClusterID

ClusterID

添加了一个新的标识符ClusterID用于标识集群中一切的节点。当格式化一个Namenode，需求提供这个标识符或者自动生成。这个ID可以被用来格式化加入集群的其他Namenode。

二次整理

有的同窗成绩的重点不是下面分析内容：内容如下：

这个报错是阐明 DataNode 所装的Hadoop版本和其它节点不分歧，应该检查DataNode的Hadoop版本

内容来源：数盟

【灯塔大数据】引见：中国电信北京研讨院经过大数据技术创新，自主研发了业内抢先的“灯塔”大数据行业运用创新平台，灯塔面向市场研讨、广告营销、商业地理、金融征信、人力资源等诸多行业范畴，提供批发研讨、消费者研讨、店铺选址、精准营销、泛义征信，背景调查等服务，助力企业在大数据时代扬帆远航。

我们周周都有原创内容，常来坐坐哦！

灯塔大数据原创报告文章阅读，请点击灯塔大数据底部菜单：文章精选

灯塔大数据干货文件打包下载，请点击灯塔大数据底部菜单：材料下载

灯塔大数据关键字回复信息：

回复【高峰论坛】有关大数据活动报名

回复【销售预测】更多有关商超销售预测

回复【必读书单】下载数据迷信材料课程

回复【学神之路】下载学神之路材料课程

回复【薪资】测试如今身价几何

回复【PM故事】分享“PM故事”材料链接

回复【新年计划】既涨知识又有材料分享

ztwtc4461 · 2018-12-13 09:21:44

这个技术难度太高，转移阵地

lilipopoiu · 2018-12-13 11:09:09

作者是谁也要考？

Michael_小杰 · 2018-12-13 11:13:39

分享了

Eve孜 · 2018-12-13 12:16:01

最近在面试，尼玛，公司假如考这些我只能说，不好意思，你们公司我看不上，我怕你们公司出不起工资

@Xizi_feukGQ3y · 2018-12-13 14:09:56

分享了

鱼鹅无关 · 2018-12-13 19:05:07

对不起，我就来看看，不说话

		自动登录	找回密码
密码			立即注册

给下周要面试的你一套大数据技术Hadoop面试题（附答案）

本帖子中包含更多资源

大神点评6

最近发表

公社版块

关注我们