# Hadoop 文件系统（HDFS）

# 设计思想

# 历史背景

HDFS（Hadoop Distributed File System）起源于Doug Cutting在开发文本搜索库时的技术积累，诞生于2006年。Hadoop生态系统由两个核心组件构成：

HDFS：分布式文件系统，负责海量数据的可靠存储
MapReduce：分布式计算框架，负责海量数据的并行处理

# 传统存储系统面临的挑战

在HDFS出现之前，传统文件系统面临着诸多挑战：

问题	具体表现	影响
存储容量限制	无法存储上百GB/TB级别的大文件	制约大数据应用发展
容错能力不足	集群系统容错率低，单点故障频发	数据丢失风险高
并发访问瓶颈	大文件并发读写性能差	影响系统吞吐量
扩展性差	难以水平扩展存储容量	成本高昂

# HDFS核心设计理念

# "一次写入，多次读取"（WORM）模型

HDFS采用WORM模型的深层原因：

维度	原因说明	技术支撑
一致性保证	避免多客户端并发写入导致的数据冲突	NameNode租约机制（文件级锁）
吞吐量优化	顺序写入大块数据（128MB/256MB）最大化磁盘I/O	数据分块 + 流水线传输
可靠性提升	数据不可变性简化副本同步和故障恢复	写时CRC校验 + 副本自动修复
设计简化	消除随机修改需求，降低元数据管理复杂度	仅支持追加写入（append）
场景适配	完美匹配批处理场景（如MapReduce）的数据特征	全文件扫描优化 + 块级并行读取

# 关键特性

文件分块存储：将大文件切分为固定大小的块（默认128MB，早期版本64MB）
跨机器索引：块分散存储在各个机器上，用文件目录项保存索引信息
分块冗余存储：每个数据块默认保存3个副本，分布在不同节点
简化文件读写：文件写入后不再修改，仅允许多次读取和末尾追加

# 集群网络拓扑

HDFS基于机架感知的网络拓扑设计：

graph TB
    DC[数据中心] --> R1[机架1]
    DC --> R2[机架2]
    DC --> RN[机架N]
    
    R1 --> N1[DataNode节点1]
    R1 --> N2[DataNode节点2]
    R1 --> N3[NameNode节点]
    
    R2 --> N4[DataNode节点4]
    R2 --> N5[DataNode节点5]
    R2 --> N6[SecondaryNameNode节点]
    
    RN --> NN[更多节点]

# 体系架构

# 架构概览

HDFS采用主从架构（Master-Slave），主要包含以下角色：

# NameNode（名称节点）

职责：HDFS的"大脑"，负责整个文件系统的管理工作
功能：
- 管理文件系统的命名空间（目录结构、文件元数据）
- 维护文件到数据块的映射关系
- 管理数据块到DataNode的映射关系
- 处理客户端的文件系统操作请求
- 监控DataNode的健康状态
特点：不存储实际文件数据，仅存储元数据

# SecondaryNameNode（辅助名称节点）

职责：NameNode的"助手"，负责元数据的备份和合并
功能：
- 定期将NameNode的EditLog与FsImage合并
- 减轻NameNode的内存压力
- 在NameNode故障时提供恢复支持
注意：并非NameNode的热备份，不能自动接管NameNode的工作

# DataNode（数据节点）

职责：HDFS的"仓库"，负责实际数据的存储和服务
功能：
- 存储文件系统的数据块
- 响应客户端的读写请求
- 定期向NameNode发送心跳和块报告
- 执行数据块的创建、删除和复制操作

# NameNode管理工具

# FsImage（文件系统镜像）

定义：内存中文件目录及其元信息在磁盘上的快照
内容：文件系统的完整状态，包括目录结构、文件属性、块信息等
作用：系统启动时的基础数据源

# EditLog（编辑日志）

定义：记录对文件系统所做修改操作的日志文件
内容：文件创建、删除、重命名等操作的详细记录
作用：保证数据一致性，支持故障恢复

# 应用程序执行流程

# 基本交互流程

客户端请求：向NameNode发起文件操作请求
NameNode响应：
- 读写操作：返回文件块的存储位置信息
- 元数据操作：直接修改文件系统的目录结构
- 删除操作：标记删除，等待特定时间后真正删除
数据交互：客户端直接与DataNode进行数据读写

# 工作原理

# 文件分块与备份

# 数据块基本概念

概念	定义	大小	作用
文件块	文件的逻辑分片单元	128MB/256MB	NameNode管理元数据的基本单位
数据块	物理存储实体（磁盘文件）	同文件块	DataNode本地存储的实际数据文件
数据包	网络传输的最小单位	64KB	客户端与DataNode间传输的数据单元

# 副本放置策略

HDFS采用机架感知的副本放置策略，默认3副本：

第一个副本：

如果客户端与某个DataNode位于同一物理节点 → 放置在该DataNode（本地优化）
否则随机选择磁盘空间充足、CPU负载较低的节点

第二个副本：

放置在不同机架的某个节点
目的：减少客户端跨机架的网络流量，提高容错能力

第三个副本：

放置在第一个副本所在机架的不同节点
目的：应对交换机故障，保证数据可用性

# 文件写入流程

# 写入步骤详解

sequenceDiagram
    participant C as 客户端
    participant NN as NameNode
    participant D1 as DataNode1
    participant D2 as DataNode2
    participant D3 as DataNode3
    
    C->>NN: 1. 创建文件请求
    NN-->>C: 返回租约(Lease)
    
    loop 每个数据块
        C->>NN: 2. 申请新块位置
        NN-->>C: 返回DataNode列表(DN1→DN2→DN3)
        C->>D1: 3. 建立数据流水线
        D1->>D2: 建立连接
        D2->>D3: 建立连接
        
        loop 数据包传输
            C->>D1: 发送数据包(64KB)
            D1->>D2: 转发数据包
            D2->>D3: 转发数据包
            D3-->>D2: 确认(ACK)
            D2-->>D1: 确认(ACK)
            D1-->>C: 确认(ACK)
        end
    end
    
    C->>NN: 4. 关闭文件，释放租约

# 并行优化机制

流水线传输：三个副本同时写入，而非串行复制
块间重叠：前一块写满80%时提前申请下一块位置
异步确认：采用异步ACK机制减少等待时间

# 文件读取流程

# 读取步骤详解

graph TB
    Client[客户端] -->|请求文件| NameNode[NameNode]
    NameNode -->|返回块位置列表| Client
    Client -->|读取Block1| DN1[DataNode1]
    Client -->|读取Block2| DN2[DataNode2]
    Client -->|读取Block3| DN3[DataNode3]
    DN1 -->|返回数据| Client
    DN2 -->|返回数据| Client
    DN3 -->|返回数据| Client
    Client -->|数据重组| Result[完整文件]

# 读取优化策略

就近原则：优先读取本地或同机架的副本
负载均衡：在多个副本间分散读取负载
故障切换：某个副本不可用时自动切换到其他副本
并行读取：多个客户端可同时读取同一文件

# 文件读写与一致性

# WORM模型特性

一次写入：文件创建、写入和关闭后不允许修改内容
多次读取：支持无限制的并发读取操作
追加写入：已写入的文件仅允许在末尾追加数据
写入互斥：同一时间只允许一个客户端写入同一文件

# 并发控制机制

操作类型	并发支持	约束条件
写同一文件	❌ 互斥	NameNode租约机制保证单客户端独占
写不同文件	✅ 完全并行	无冲突约束
写同一文件的不同块	✅ 流水线重叠	通过阈值触发机制实现
读操作	✅ 全并行	无锁设计，支持多客户端并发

# 一致性保证

强一致性：通过文件级租约机制保证
最终一致性：副本间通过心跳和块报告实现同步
校验机制：每个数据块都有CRC校验，保证数据完整性

# 容错机制

# 故障类型分析

HDFS设计用于应对多种类型的故障：

# 硬件故障

磁盘错误：坏道、读写失败等
节点故障：服务器宕机、网络断开等
网络故障：交换机故障、网络分区等

# 软件故障

进程崩溃：NameNode、DataNode进程异常退出
数据损坏：文件系统损坏、元数据不一致等

# NameNode故障处理

# 故障检测

心跳超时：DataNode定期发送心跳，超时则认为故障
检查点机制：SecondaryNameNode定期检查NameNode状态

# 故障恢复

启动SecondaryNameNode：接管NameNode的工作
恢复元数据：
- 加载最新的FsImage
- 重放EditLog中的操作记录
- 重建内存中的文件系统状态
重建块映射：接收DataNode的块报告，重建块到节点的映射

# 高可用性解决方案

HDFS HA：双NameNode主备架构
共享存储：通过共享存储同步元数据
自动故障转移：基于Zookeeper的自动切换机制

# DataNode故障处理

# 故障检测机制

心跳监控：DataNode每3秒向NameNode发送心跳
块报告：DataNode定期报告本地块的状态信息
超时判定：超过10分钟无心跳则标记为Dead

# 故障响应流程

标记节点状态：将故障节点标记为不可用
检查副本数量：统计受影响数据块的可用副本数
触发复制：副本数低于阈值时启动数据复制
选择目标节点：根据负载和机架策略选择复制目标

# 数据恢复策略

flowchart TD
    A[检测到DataNode故障] --> B{检查块副本数}
    B -->|副本数>=3| C[无需处理]
    B -->|副本数=2| D[优先级中等复制]
    B -->|副本数=1| E[高优先级复制]
    B -->|副本数=0| F[数据丢失警告]
    D --> G[选择复制源和目标]
    E --> G
    G --> H[启动数据复制]
    H --> I[更新元数据]

# 网络故障处理

# 机架故障

故障影响：整个机架的节点不可访问
应对策略：利用跨机架副本保证数据可用性
恢复机制：故障恢复后自动重新加入集群

# 网络分区

脑裂问题：NameNode与部分DataNode失去联系
解决方案：基于心跳超时的保守策略
数据一致性：优先保证数据安全而非可用性

# 习题解析

# 试举例说明HDFS在实际应用中的作用

标准答案：

存储TB级别的大文件
保证文件系统的容错
实现大文件的并发读写控制

# HDFS的主要部件有哪些？各个部件分别有什么作用？

NameNode：

负责HDFS的管理工作
管理文件目录结构、位置等元数据
维护DataNode的状态
注意：NameNode并不实际存储文件数据

SecondaryNameNode：

充当NameNode的备份
NameNode故障时利用SecondaryNameNode进行恢复
重要：不是热备份，无法自动接管NameNode工作

DataNode：

负责存储文件数据
根据NameNode的控制信息存储和管理对应的文件块
定期向NameNode汇报状态（通过TCP协议发送心跳信息）

# HDFS的文件分块是什么？和操作系统的文件系统中块的概念有何联系与区别？

HDFS文件分块：

把文件分成若干个固定大小的块（如128MB）
分布存储于DataNode中
目的是为了分布式存储和管理

操作系统文件系统分块：

块大小通常为512B或4KB
系统层面指定，为了让系统更好地工作
主要用于本地存储管理

联系与区别：

共同点：都是为了更好地管理文件
区别：
- 大小差异：HDFS块（128MB）远大于OS块（4KB）
- 目的不同：HDFS为分布式存储，OS为本地管理
- 管理方式：HDFS跨网络分布，OS本地集中

# 简述客户端从HDFS读取某一文件时的工作过程

客户端向NameNode发送读取文件请求
NameNode判断路径等信息是否合法，如果合法，返回该文件所有数据块的存放地址
对于第一个数据块，客户端从最近的存放该数据块的DataNode读取数据
当读取完第一个数据块后，客户端从最近的存放第二个数据块的DataNode读取数据
依此类推，直到读取完所有数据块

关键要点：

NameNode只提供元数据，不参与实际数据传输
客户端直接与DataNode交互读取数据
遵循就近原则选择DataNode，优化网络传输

# HDFS为什么要采用"一次写入，多次读取"的方式？

保证一致性："一次写入"可以在文件系统写的时候防止其他的写与读取，提升了数据写入/读取的一致性
简化管理：文件内容一经写入，就不可在其中间修改，只能在末尾添加或者删除再重新写入。这简化了数据块管理与同步的困难，增强了数据一致性
提升读性能：对于一个文件的读操作可以并发执行，提升了读文件的效率，因为读文件不会给系统的数据一致性带来问题

深层原因：

避免复杂的并发控制和锁机制
匹配大数据批处理场景的访问模式
简化故障恢复和数据同步机制

# 为什么HDFS要按照逐个进行的阻塞方式读写文件块？能否并行读写文件块？

标准答案分析：

根据习题提供的答案，认为HDFS采用阻塞方式且不能并行。但这需要澄清：

实际情况：

文件级互斥：同一文件在同一时间只能有一个客户端写入（通过租约机制保证）
块级优化：在单个文件的写入过程中，存在多种并行优化：
- 流水线传输：数据包在多个副本间并行传输
- 块间重叠：前一块未写完时可以申请下一块位置

为什么看似"阻塞"：

NameNode需要先定位读写位置，确保副本分布的合理性
数据一致性要求每个块的所有副本都成功写入后才能继续
避免数据丢失或损坏，保证分布式备份的可靠性

核心权衡：HDFS在简单性、一致性和性能之间做出平衡，通过文件级的串行化保证数据安全，同时在技术实现层面尽可能优化性能。

期末复习