找回密码
 立即注册
搜索

给下周要面试的你一套大数据技术Hadoop面试题(附答案)



单项选择题


    1. 下面哪个程序担任 HDFS 数据存储。  

a)NameNode  b)Jobtracker  c)Datanode  d)secondaryNameNode

e)tasktracker

    2. HDfS 中的 block 默许保存几份?  

a)3 份  b)2 份  c)1 份 d)不确定

    3. 下列哪个程序通常与 NameNode 在一个节点启动? 

a)SecondaryNameNode

b)DataNode

c)TaskTracker

d)Jobtracker

    4. Hadoop 作者  

a)Martin Fowler

b)Kent Beck

c)Doug cutting

    5. HDFS 默许 Block Size  

a)32MB

b)64MB

c)128MB

    6. 下列哪项通常是集群的最次要瓶颈  

a)CPU

b)网络

c)磁盘

d)内存

    7. 关于 SecondaryNameNode 哪项是正确的?  

a)它是 NameNode 的热备

b)它对内存没有要求

c)它的目的是协助 NameNode 合并编辑日志,减少 NameNode 启动工夫

d)SecondaryNameNode 应与 NameNode 部署到一个节点

多选题


    8. 下列哪项可以作为集群的管理工具  

a)Puppet

b)Pdsh

c)Cloudera Manager

d)d)Zookeeper

    9. 配置机架感知的下面哪项正确  

a)假如一个机架出成绩,不会影响数据读写

b)写入数据的时分会写到不同机架的 DataNode 中

c)MapReduce 会根据机架获取离本人比较近的网络数据

    10. Client 端上传文件的时分下列哪项正确  

a)数据经过 NameNode 传递给 DataNode

b)Client 端将文件切分为 Block,依次上传

c)Client 只上传数据到一台 DataNode,然后由 NameNode 担任 Block 复制工作

    11. 下列哪个是 Hadoop 运转的形式  

a)单机版

b)伪分布式

c)分布式

    12. Cloudera 提供哪几种安装 CDH 的方法  

a)Cloudera manager

b)Tar ball

c)Yum d)Rpm

判别题


    13. Ganglia 不只可以停止监控,也可以停止告警。( )

    14. Block Size 是不可以修正的。( )

    15. Nagios 不可以监控 Hadoop 集群,由于它不提供 Hadoop 支持。( )

    16. 假如 NameNode 不测终止,SecondaryNameNode 会接替它使集群继续工作。( )

    17. Cloudera CDH 是需求付费运用的。( )

    18. Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 言语编写。( )

    19. Hadoop 支持数据的随机读写。( )

    20. NameNode 担任管理 metadata,client 端每次读写央求,它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端。( )

    21. NameNode 本地磁盘保存了 Block 的地位信息。( )

    22. DataNode 经过长衔接与 NameNode 保持通讯。( )

    23. Hadoop 本身具有严厉的权限管理和安全措施保障集群正常运转。( )

    24. Slave 节点要存储数据,所以它的磁盘越大越好。( )

    25. hadoop dfsadmin –report 命令用于检测 HDFS 损坏块。( )

    26. Hadoop 默许调度器策略为 FIFO( )

    27. 集群内每个节点都应该配 RAID,这样避免单磁盘损坏,影响整个节点运转。( )

    28. 由于 HDFS 有多个副本,所以 NameNode 是不存在单点成绩的。( )

    29. 每个 map 槽就是一个线程。( )

    30. Mapreduce 的 input split 就是一个 block。( )

    31. NameNode 的 Web UI 端口是 50030,它经过 jetty 启动的 Web 服务。( )

    32. Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置一切 Hadoop 守护线程的内存。它默许是 200 GB。( )

    33. DataNode 初次加入 cluster 的时分,假如 log 中报告不兼容文件版本,那需求 NameNode执行“Hadoop namenode -format”操作格式化磁盘。( )别走开,答案在后面哦!


答案单选题


    1.下面哪个程序担任 HDFS 数据存储。答案C datanode

a)NameNode  b)Jobtracker  c)Datanode  d)secondaryNameNode

e)tasktracker

    2. HDfS 中的 block 默许保存几份? 答案A默许3分  

a)3 份  b)2 份  c)1 份 d)不确定

    3. 下列哪个程序通常与 NameNode 在一个节点启动?答案D  

a)SecondaryNameNode

b)DataNode

c)TaskTracker

d)Jobtracker

此题分析:

hadoop的集群是基于master/slave形式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只要一个,而slave有多个SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常secondary NameNode(运转在单独的物理机器上)和NameNode运转在不同的机器上。

JobTracker和TaskTrackerJobTracker 对应于 NameNodeTaskTracker 对应于 DataNodeDataNode 和NameNode 是针对数据存放来而言的

JobTracker和TaskTracker是对于MapReduce执行而言的

mapreduce中几个次要概念,mapreduce全体上可以分为这么几条执行线索:obclient,JobTracker与TaskTracker。

1、JobClient会在用户端经过JobClient类将运用曾经配置参数打包成jar文件存储到hdfs,并把途径提交到Jobtracker,然后由JobTracker创建每一个Task(即MapTask和ReduceTask)并将它们分发到各个TaskTracker服务中去执行。

2、JobTracker是一个master服务,软件启动之后JobTracker接收Job,担任调度Job的每一个子义务task运转于TaskTracker上,并监控它们,假如发现有失败的task就重新运转它。普通状况应该把JobTracker部署在单独的机器上。

3、TaskTracker是运转在多个节点上的slaver服务。TaskTracker自动与JobTracker通讯,接收作业,并担任直接执行每一个义务。TaskTracker都需求运转在HDFS的DataNode上。

    4. Hadoop 作者 答案C Doug cutting  

a)Martin Fowler

b)Kent Beck

c)Doug cutting

    5. HDFS 默许 Block Size 答案:B  

a)32MB  b)64MB c)128MB

(由于版本更换较快,这里答案只供参考)

    6. 下列哪项通常是集群的最次要瓶颈:答案:C磁盘  

a)CPU  b)网络  c)磁盘IO d)内存

该题解析:

首先集群的目的是为了节省成本,用廉价的pc机,取代小型机及大型机。小型机和大型机有什么特点?

1.cpu处理才能强

2.内存够大

所以集群的瓶颈不能够是a和d

3.网络是一种稀缺资源,但是并不是瓶颈。

4.由于大数据面临海量数据,读写数据都需求io,然后还要冗余数据,hadoop普通备3份数据,所以IO就会打折扣。

    7. 关于 SecondaryNameNode 哪项是正确的?答案C  

a)它是 NameNode 的热备

b)它对内存没有要求

c)它的目的是协助 NameNode 合并编辑日志,减少 NameNode 启动工夫

d)SecondaryNameNode 应与 NameNode 部署到一个节点。

多选题答案


    8. 下列哪项可以作为集群的管理?答案:ABD  

a)Puppet

b)Pdsh

c)Cloudera Manager

d)Zookeeper

    9. 配置机架感知的下面哪项正确:答案ABC  

a)假如一个机架出成绩,不会影响数据读写

b)写入数据的时分会写到不同机架的 DataNode 中

c)MapReduce 会根据机架获取离本人比较近的网络数据

    10. Client 端上传文件的时分下列哪项正确?答案B  

a)数据经过 NameNode 传递给 DataNode

b)Client 端将文件切分为 Block,依次上传

c)Client 只上传数据到一台 DataNode,然后由 NameNode 担任 Block 复制工作

该题分析

Client向NameNode发起文件写入的央求。

NameNode根据文件大小和文件块配置状况,前往给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

    11. 下列哪个是 Hadoop 运转的形式:答案ABC  

a)单机版

b)伪分布式

c)分布式

    12. Cloudera 提供哪几种安装 CDH 的方法?答案:ABCD  

a)Cloudera manager  b)Tarball  c)Yum  d)Rpm

判别题答案


    13. Ganglia 不只可以停止监控,也可以停止告警。( 正确)

分析:此题的目的是考Ganglia的了解。严厉意义下去讲是正确。ganglia作为一款最常用的Linux环境中的监控软件,它擅长的的是从节点中按照用户的需求以较低的代价采集数据。但是ganglia在预警以及发生事情后告诉用户上并不擅长。最新的ganglia曾经有了部分这方面的功能。但是更擅长做正告的还有Nagios。Nagios,就是一款精于预警、告诉的软件。经过将Ganglia和Nagios组合起来,把Ganglia采集的数据作为Nagios的数据源,然后应用Nagios来发送预正告诉,可以完美的完成一整套监控管理的系统。

    14. Block Size 是不可以修正的。(错误 )

分析:它是可以被修正的Hadoop的基础配置文件是hadoop-default.xml,默许建立一个Job的时分会建立Job的Config,Config首先读入hadoop-default.xml的配置,然后再读入hadoop-site.xml的配置(这个文件初始的时分配置为空),hadoop-site.xml中次要配置需求覆盖的hadoop-default.xml的系统级配置。

    15. Nagios 不可以监控 Hadoop 集群,由于它不提供 Hadoop 支持。(错误 )

分析:Nagios是集群监控工具,而且是云计算三大利器之一

    16. 假如 NameNode 不测终止,SecondaryNameNode 会接替它使集群继续工作。(错误 )

分析:SecondaryNameNode是协助恢复,而不是替代,如何恢复,可以查看

    17. Cloudera CDH 是需求付费运用的。(错误 )

分析:第一套付费产品是Cloudera Enterpris,Cloudera Enterprise在美国加州举行的 Hadoop 大会 (Hadoop Summit) 上公开,以若干公有管理、监控、运作工具加强 Hadoop 的功能。收费采取合约订购方式,价格随用的 Hadoop 叢集大小变动。

    18. Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 言语编写。(错误 )

分析:rhadoop是用R言语开发的,MapReduce是一个框架,可以了解是一种思想,可以运用其他言语开发。

    19. Hadoop 支持数据的随机读写。(错 )

分析:lucene是支持随机读写的,而hdfs只支持随机读。但是HBase可以来补救。HBase提供随机读写,来处理Hadoop不能处理的成绩。HBase自底层设计末尾即聚焦于各种可伸缩性成绩:表可以很“高”,有数十亿个数据行;也可以很“宽”,有数百万个列;程度分区并在上千个普通商用机节点上自动复制。表的形式是物理存储的直接反映,使系统有能够提高高效的数据结构的序列化、存储和检索。

    20. NameNode 担任管理 metadata,client 端每次读写央求,它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端。(错误)

此题分析:

NameNode 不需求从磁盘读取 metadata,一切数据都在内存中,硬盘上的只是序列化的结果,只要每次 namenode 启动的时分才会读取。

1)文件写入

Client向NameNode发起文件写入的央求。

NameNode根据文件大小和文件块配置状况,前往给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

2)文件读取Client向NameNode发起文件读取的央求。

    21. NameNode 本地磁盘保存了 Block 的地位信息。( 个人以为 正确 ,欢迎提出其它意见)

分析:DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将一切存在的Block信息发送给NameNode。NameNode前往文件存储的DataNode的信息。Client读取文件信息。

    22. DataNode 经过长衔接与 NameNode 保持通讯。( )

这个有分歧:详细正在找这方面的有利材料。下面提供材料可参考。

首先明白一下概念:

(1).长衔接Client方与Server方先建立通讯衔接,衔接建立后不断开,然后再停止报文发送和接收。这种方式下由于通讯衔接不断存在,此种方式常用于点对点通讯。

(2).短衔接Client方与Server每停止一次报文收发买卖时才停止通讯衔接,买卖终了后立刻断开衔接。此种方式常用于一点对多点通讯,比如多个Client衔接一个Server.

    23. Hadoop 本身具有严厉的权限管理和安全措施保障集群正常运转。 (错误 )

hadoop只能阻止好人犯错,但是不能阻止坏人干坏事

    24. Slave 节点要存储数据,所以它的磁盘越大越好。( 错误)

分析:一旦Slave节点宕机,数据恢复是一个难题

    25. hadoop dfsadmin –report 命令用于检测 HDFS 损坏块。(错误 )

    26. Hadoop 默许调度器策略为 FIFO(正确 )

    27. 集群内每个节点都应该配 RAID,这样避免单磁盘损坏,影响整个节点运转。(错误 )

分析:首先明白什么是RAID,可以参考百科磁盘阵列。这句话错误的地方在于太相对,详细状况详细分析。标题不是重点,知识才是最重要的。由于hadoop本身就具有冗余才能,所以假如不是很严厉不需求都装备RAID。详细参考第二题。

    28. 由于 HDFS 有多个副本,所以 NameNode 是不存在单点成绩的。(错误 )

    29. 每个 map 槽就是一个线程。(错误 )

分析:首先我们知道什么是map 槽,map 槽->map slotmap slot 只是一个逻辑值 ( org.apache.hadoop.mapred.TaskTracker.TaskLauncher.numFreeSlots ),而不是对应着一个线程或者进程

    30. Mapreduce 的 input split 就是一个 block。(错误 )

    31. NameNode 的 Web UI 端口是 50030,它经过 jetty 启动的 Web 服务。(错误 )

    32. Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置一切 Hadoop 守护线程的内存。它默许是 200 GB。( 错误)

hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)一致分配的内存在hadoop-env.sh中设置,参数为HADOOP_HEAPSIZE,默以为1000M。

    33. DataNode 初次加入 cluster 的时分,假如 log 中报告不兼容文件版本,那需求 NameNode执行“Hadoop namenode -format”操作格式化磁盘。(错误 )

分析:

首先明白引见,什么ClusterID

ClusterID

添加了一个新的标识符ClusterID用于标识集群中一切的节点。当格式化一个Namenode,需求提供这个标识符或者自动生成。这个ID可以被用来格式化加入集群的其他Namenode。

二次整理

有的同窗成绩的重点不是下面分析内容:内容如下:

这个报错是阐明 DataNode 所装的Hadoop版本和其它节点不分歧,应该检查DataNode的Hadoop版本

内容来源:数盟

【灯塔大数据】引见:中国电信北京研讨院经过大数据技术创新,自主研发了业内抢先的“灯塔”大数据行业运用创新平台,灯塔面向市场研讨、广告营销、商业地理、金融征信、人力资源等诸多行业范畴,提供批发研讨、消费者研讨、店铺选址、精准营销、泛义征信,背景调查等服务,助力企业在大数据时代扬帆远航。

我们周周都有原创内容,常来坐坐哦!

灯塔大数据原创报告文章阅读,请点击灯塔大数据底部菜单:文章精选

灯塔大数据干货文件打包下载,请点击灯塔大数据底部菜单:材料下载

灯塔大数据关键字回复信息:

回复【高峰论坛】 有关大数据活动报名

回复【销售预测】 更多有关商超销售预测

回复【必读书单】 下载数据迷信材料课程

回复【学神之路】 下载学神之路材料课程

回复【薪 资】 测试如今身价几何

回复【PM故事】 分享“PM故事”材料链接

回复【新年计划】 既涨知识又有材料分享

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评6

ztwtc4461 2018-12-13 09:21:44 显示全部楼层
这个技术难度太高,转移阵地
回复

使用道具 举报

lilipopoiu 2018-12-13 11:09:09 显示全部楼层
作者是谁也要考?
回复

使用道具 举报

Michael_小杰 2018-12-13 11:13:39 显示全部楼层
分享了
回复

使用道具 举报

Eve孜 2018-12-13 12:16:01 显示全部楼层
最近在面试,尼玛,公司假如考这些我只能说,不好意思,你们公司我看不上,我怕你们公司出不起工资
回复

使用道具 举报

@Xizi_feukGQ3y 2018-12-13 14:09:56 显示全部楼层
分享了
回复

使用道具 举报

鱼鹅无关 2018-12-13 19:05:07 显示全部楼层
对不起,我就来看看,不说话
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies