目录

    • 1、什么是Hadoop及其组件
    • 2、Hadoop的守护进程
    • 3、Hadoop的YARN/HDFS/MapReduce分别包含哪些组件,每个组件的职能是什么?
      • 3.1 YARN:Yet Another Resource Negotiator,是一种新的Hadoop资源管理器
      • 3.2 HDFS:分布式文件管理系统
      • 3.3 MapReduce:分布式计算框架,采用Master/Slave架构,1个JobTracker带多个TaskTracker
    • 4、一个MapReduce任务在提交阶段是如何对输入数据进行分片划分的?
    • 5、MapReduce里的Combiner是做什么用的?什么情况下需要,和Reduce的区别是什么?
    • 6、MapReduce的Shuffle过程包含了哪几个阶段,分别做了什么工作?Shuffle的数据量是由什么决定的?
    • 7、什么是推测机制,它是如何解决计算慢节点问题的?
    • 8、HDFS是如何实现容错机制的?如果NameNode挂了会怎么样,DataNode挂了会怎么样?
    • 9、HDFS的一次读数据请求经历了怎样的过程?一次写请求经历了怎样的过程?
    • 10、YARN的产生解决了什么样的调度问题?
    • 11、YARN是如何做计算资源的调度的,有哪些策略?

更多文章请关注《万象专栏》

转载请注明出处:https://www.wanxiangsucai.com/read/cv178535