Linux【12】--其他4--hadoop初识

September 15, 2014 linux 阅读量：次

我们通常说的分布式系统其实是分布式软件系统，即支持分布式处理的软件系统，它是在通信网络互联的多处理机体系结构上执行任务的，包括分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。Hadoop是分布式软件系统中文件系统这一层的软件，它实现了分布式文件系统和部分分布式数据库的功能。Hadoop中的分布式文件系统HDFS能够实现数据在计算机集群组成的云上高效的存储和管理，Hadoop中的并行编程框架MapReduce能够让用户编写的Hadoop并行应用程序运行更加简化。

维基百科这样说：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。这里面关键就是高速运算和海量存储。

一、海量存储：HDFS

一个集群中只有一个NameNode，可以有多个DataNodes
namenode 承担数据的位置存储信息，并将存储位置信息告诉client端!
得到位置信息后，client端开始写数据
写数据的时候是将数据分块，并存储为多份(一般为3份)，放在不同的datanode 节点!
client 先将数据写到第一个节点，在第一个节点接收数据的同时，又将它所接收的数据推送到第二个，第二个推送到第三个节点，如果有多个节点，依次类推。。
从图中可以知道 NameNode 不参与数据块的IO的!相当于mongodb 集群中的 mongos 和config 服务器的双重角色!

图1：HDFS结构示意图

上图中展现了整个HDFS三个重要角色：NameNode、DataNode和Client。NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。Client就是需要获取分布式文件系统文件的应用程序。这里通过三个操作来说明他们之间的交互关系。

文件写入：

Client向NameNode发起文件写入的请求。
NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。
Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

文件读取：

Client向NameNode发起文件读取的请求。
NameNode返回文件存储的DataNode的信息。
Client读取文件信息。

文件Block复制：

NameNode发现部分文件的Block不符合最小复制数或者部分DataNode失效。
通知DataNode相互复制Block。
DataNode开始直接相互复制。

HDFS的几个设计特点：

Block的放置：默认不配置。一个Block会有三份备份，一份放在NameNode指定的DataNode，另一份放在与指定DataNode非同一Rack上的DataNode，最后一份放在与指定DataNode同一Rack上的DataNode上。备份无非就是为了数据安全，考虑同一Rack的失败情况以及不同Rack之间数据拷贝性能问题就采用这种配置方式。
心跳检测DataNode的健康状况，如果发现问题就采取数据备份的方式来保证数据的安全性。数据复制（场景为DataNode失败、需要平衡DataNode的存储利用率和需要平衡DataNode数据交互压力等情况）：这里先说一下，使用HDFS的balancer命令，可以配置一个Threshold来平衡每一个DataNode磁盘利用率。例如设置了Threshold为 10%，那么执行balancer命令的时候，首先统计所有DataNode的磁盘利用率的均值，然后判断如果某一个DataNode的磁盘利用率超过这个均值Threshold以上，那么将会把这个DataNode的block转移到磁盘利用率低的DataNode，这对于新节点的加入来说十分有用。
数据交验：采用CRC32作数据交验。在文件Block写入的时候除了写入数据还会写入交验信息，在读取的时候需要交验后再读入。
NameNode是单点：如果失败的话，任务处理信息将会纪录在本地文件系统和远端的文件系统中。
数据管道性的写入：当客户端要写入文件到DataNode上，首先客户端读取一个Block然后写到第一个DataNode上，然后由第一个DataNode传递到备份的DataNode上，一直到所有需要写入这个Block的NataNode都成功写入，客户端才会继续开始写下一个 Block。
安全模式：在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示，只需要等待一会儿即可。

二、高速计算：

上面的图片是计算这个文件中每个单词出现的次数，这个任务被分裂成三个子任务，然后映射到集群中JobTracker指定的TaskTracker上运行子任务，每个子任务都可以在指定的TaskTracker上运行，然后把运行的结果保存在当地，然后reduce程序被调用。然后进行的是结果的整合，整合完毕，就是最终结果了。这是计算向数据靠拢的计算方式。

下面简单介绍一下基于Hadoop进行分布式并发编程的相关知识：

Hadoop上的并行应用程序开发是基于MapReduce编程框架的。MapReduce编程模型的原理是：利用一个输入的key/value 对集合来产生一个输出的key/value对集合。MapReduce库的用户用两个函数来表达这个计算：Map和Reduce。
用户自定义的map函数接收一个输入的key/value 对，然后产生一个中间key/value 对的集合。MapReduce把所有具有相同key值的value集合在一起，然后传递给reduce函数。
用户自定义的reduce函数接收key和相关的value集合。reduce函数合并这些value值，形成一个较小的value集合。一般来说，每次reduce函数调用只产生0或1个输出的value值。通常我们通过一个迭代器把中间的value值提供给reduce 函数，这样就可以处理无法全部放入内存中的大量的value值集合了。
下图是MapReduce的数据流图，这个过程简而言之就是将大数据集分解为成百上千个小数据集，每个(或若干个)数据集分别由集群中的一个节点(一般就是一台普通的计算机)进行处理并生成中间结果，然后这些中间结果又由大量的节点合并，形成最终结果。下图也指出了MapReduce框架下并行程序中的三个主要函数：map、reduce、main。在这个结构中，需要用户完成的工作仅仅是根据任务编写map和reduce两个函数。

三、 Hadoop与分布式开发

　　MapReduce计算模型非常适合在大量计算机组成的大规模集群上并行运行。上图中的每一个map 任务和每一个reduce 任务均可以同时运行于一个单独的计算节点上，可想而知，其运算效率是很高的，那么这样的并行计算是如何做到的呢?下面将简单介绍一下其原理。

1.数据分布存储

　　Hadoop分布式文件系统(HDFS)由一个名称节点(NameNode )和N个数据节点(DataNode)组成，每个节点均是一台普通的计算机。在使用方式上HDFS与我们熟悉的单机文件系统非常类似，它可以创建目录，创建、复制和删除文件，以及查看文件的内容等。但HDFS底层把文件切割成了Block，然后这些 Block 分散地存储于不同的 DataNode 上，每个 Block 还可以复制数份数据存储于不同的 DataNode 上，达到容错容灾的目的。NameNode 则是整个 HDFS 的核心，它通过维护一些数据结构来记录每一个文件被切割成了多少个 Block、这些 Block 可以从哪些 DataNode 中获得，以及各个 DataNode 的状态等重要信息。

2. 分布式并行计算

　　Hadoop 中有一个作为主控的JobTracker，用于调度和管理其他的 TaskTracker，JobTracker 可以运行于集群中的任意一台计算机上。TaskTracker则负责执行任务，它必须运行于 DataNode 上，也就是说DataNode 既是数据存储节点，也是计算节点。 JobTracker 将 map 任务和 reduce 任务分发给空闲的TaskTracker，让这些任务并行运行，并负责监控任务的运行情况。如果某一个 TaskTracker 出了故障，JobTracker 会将其负责的任务转交给另一个空闲的 TaskTracker 重新运行。

3. 本地计算

　　数据存储在哪一台计算机上，就由哪台计算机进行这部分数据的计算，这样可以减少数据在网络上的传输，降低对网络带宽的需求。在 Hadoop 这类基于集群的分布式并行系统中，计算节点可以很方便地扩充，它所能够提供的计算能力近乎无限，但是由于数据需要在不同的计算机之间流动，故网络带宽变成了瓶颈，“本地计算”是一种最有效的节约网络带宽的手段，业界把这形容为“移动计算比移动数据更经济”。

4. 任务粒度

　　把原始大数据集切割成小数据集时，通常让小数据集小于或等于 HDFS 中一个 Block 的大小(默认是64MB)，这样能够保证一个小数据集是位于一台计算机上的，便于本地计算。有 M 个小数据集待处理，就启动 M 个 map 任务，注意这 M 个map 任务分布于 N 台计算机上，它们会并行运行，reduce 任务的数量 R 则可由用户指定。

5. 数据分割(Partition)

把 map 任务输出的中间结果按 key 的范围划分成R份(R是预先定义的reduce 任务的个数)，划分时通常使用 hash 函数(如：hash(key) mod R)，这样可以保证某一范围内的 key一定是由一个 reduce 任务来处理的，可以简化 Reduce 的过程。

6. 数据合并(Combine)

　　在数据分割之前，还可以先对中间结果进行数据合并(Combine)，即将中间结果中有相同 key的对合并成一对。Combine 的过程与reduce 的过程类似，很多情况下可以直接使用reduce 函数，但 Combine 是作为map 任务的一部分，在执行完map函数后紧接着执行的。Combine 能够减少中间结果中对的数目，从而降低网络流量。

7. Reduce

　　Map 任务的中间结果在做完 Combine 和 Partition 之后，以文件形式存于本地磁盘上。中间结果文件的位置会通知主控 JobTracker，JobTracker 再通知 reduce 任务到哪一个 DataNode 上去取中间结果。注意，所有的map 任务产生的中间结果均按其key 值用同一个 hash 函数划分成了R份，R个reduce 任务各自负责一段key 区间。每个reduce 需要向许多个map 任务节点取得落在其负责的key 区间内的中间结果，然后执行reduce函数，形成一个最终的结果文件。

8. 任务管道

　　有 R 个 reduce 任务，就会有 R 个最终结果，很多情况下这 R 个最终结果并不需要合并成一个最终结果，因为这 R 个最终结果又可以作为另一个计算任务的输入，开始另一个并行计算任务，这也就形成了任务管道。

参考资料：

这里是一个广告位，，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn