【大数据面试之对线面试官】MapReduce/HDFS/YARN面试题70连击-技术圈

点击上方蓝色字体，选择“设为星标”

回复”资源“获取更多资源

大数据技术与架构

点击右侧关注，大数据开发领域最强公众号！

大数据真好玩

点击右侧关注，大数据真好玩！

热身30题

1.描述一下HDFS的写流程

2.描述一下HDFS的读流程

3.详细讲解一下HDFS的体系结构

4.如果一个datanode出现宕机，恢复流程是什么样的？

5.通常你是如何解决Haddop的NameNode宕机的，流程是什么？

6.描述一下NameNode对元数据的管理

7.NameNode对元数据的管理机制是什么？

8.详细描述一下Yarn的调度流程？

9.讲解一下Hadoop中combiner和partition的作用

10.你在MapReduce过程中遇到过数据倾斜问题吗？你是如何处理的？

11.Hadoop的Shuffle分为哪几个阶段？有什么特点

12.Mapreduce的map数量和reduce数量是由什么决定的？

13.你对MapReduce做过什么优化？有什么经验？

14.用过Combiner吗？什么情况要使用Combiner？

15.讲解一下MapReduce的流程？

16.HDFS的系统架构是如何保证数据安全的?

17.在通过客户端向HDFS中写数据的时候，如果某一台机器宕机了，会怎么处理

18.你对Hadoop集群做过哪些优化？有哪些常用的优化措施？

19.写出MapReduce求TopN的思路

20.Hadoop集群中有哪些进程？他们各自有什么作用？

21.Hadoop的job和Task之间的区别是什么？

22.Hadoop高可用HA模式如何配置？工作原理是什么？

23.安装过集群吗？大概需要哪几步骤？

24.fsimage和edit的区别

25.详细描述Yarn的三大调度策略

26.说出一些hadoop的常用shell命令

27.如何用MapReduce实现求用户PV TOP10？

MapReduce部分深入

1.谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?

2.FileInputFormat切片机制

3.在一个运行的Hadoop 任务中，什么是InputSplit？

4.如何判定一个job的map和reduce的数量?

Maptask的个数由什么决定？

6.MapTask和ReduceTask工作原理和机制

7.描述mapReduce有几种排序及排序发生的阶段

8.描述mapReduce中shuffle阶段的工作流程，如何优化shuffle阶段

9.描述mapReduce中combiner的作用是什么，一般使用情景，哪些情况不需要，及和reduce的区别？

10.如果没有定义partitioner，那数据在被送达reducer前是如何被分区的？

11.MapReduce 出现单点负载多大，怎么负载平衡？

12.MapReduce 怎么实现 TopN？写出关键代码

13.Hadoop的缓存机制（DistributedCache）

14.如何使用MapReduce实现两个表的join?

15.什么样的计算不能用MapReduce来提速？

16.ETL是哪三个单词的缩写，说说你用过的ETL场景和哪些技术点？

HDFS部分深入

HDFS 中的 block 默认保存几份？

2.HDFS 默认 BlockSize 是多大？

3.负责HDFS数据存储的是哪一部分？

4.SecondaryNameNode的目的是什么？

5.文件大小设置，增大有什么影响？

6.hadoop的块大小，从哪个版本开始是128M

7.HDFS的存储机制

8.Secondary Namenode工作机制？

9.NameNode与SecondaryNameNode 的区别与联系？

10.HDFS组成架构

11.HAnamenode 是如何工作的?

YARN部分深入

1.简述hadoop1与hadoop2 的架构异同?

2.为什么会产生 yarn,它解决了什么问题，有什么优势？

3.HDFS的数据压缩算法?

4.Hadoop的调度器总结?

5.MapReduce 2.0 容错性?

6.Mapreduce推测执行算法及原理?

优化和其他问题

1.MapReduce跑得慢的原因？

2.MapReduce优化方法？

3.HDFS小文件优化方法？

几乎所有问题都可以在这里找到答案：

MapReduce编程模型和计算框架架构原理

Hadoop Namenode元数据持久化机制与SecondaryNamenode的作用详解

Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)

环形缓冲区-Hadoop Shuffle过程中的利器

Hadoop YARN：调度性能优化实践

Hadoop分布式缓存(DistributedCache)

Hadoop机架感知

Hadoop极简入门

分布式文件系统：HDFS 核心原理

HDFS应用场景、原理、基本架构及使用方法

HDFS读写数据过程原理分析

HDFS的SecondaryNameNode作用，你别答错了

分布式文件系统-HDFS

Yarn调度队列

Hadoop YARN：调度性能优化实践

YARN Capacity Scheduler（容量调度器）