hadoop | Ceilzcx's blog = hexo-blog

# Hadoop

Apache 下密集型数据分布式系统基础架构。

实现海量数据的存储和分析计算

特点

高可靠性：多副本存储
高拓展性：可以方便的动态拓展节点
高效性：并行计算，汇总 —— MapReduce
高容错性：自动分配失败的任务（一个节点的计算任务挂掉，会将该节点的计算子任务分配到另一个有该任务资源的节点上进行计算）

# 一、HDFS

分布式文件系统

# NameNode

存储文件的元数据（存储文件的信息，不存储数据）

# DataNode

存储文件块数据，以及数据的校验和

# Secondary NameNode (2NN)

NameNode 的数据备份（防止 NameNode 挂掉后，数据无法找到）

# 二、YARN

资源调度器

# ResourceManager

管理整个集群的资源（内存、CPU、磁盘、网络等）

# NodeManager

管理单个节点服务器资源

# Application Master

管理任务运行（任务在节点上运行）

# Container

容器（相当于任务运行的服务器），封装任务运行所需要的任务

大数据