Hadoop学习笔记

2009-05-13 12:06:03来源:未知 阅读 ()

新老客户大回馈,云服务器低至5折


一、简要介绍
这里先大致介绍一下
[url=javascript:;]Hadoop[/url]
.
    本文大部分内容都是从官网
Hadoop
上来的。其中有一篇
介绍HDFS的pdf文档
,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从
这里
一步一步进行下来的,同时又参考了网上的很多文章,对学习Hadoop中遇到的问题进行了归纳总结。
    言归正传,先说一下Hadoop的来龙去脉。谈到Hadoop就不得不提到
Lucene

Nutch
。首先,Lucene并不是一个应用程序,而是提供了一个纯Java的高性能全文索引引擎工具包,它可以方便的嵌入到各种实际应用中实现全文搜索/索引功能。Nutch是一个应用程序,是一个以Lucene为基础实现的搜索引擎应用,Lucene
为Nutch提供了文本搜索和索引的API,Nutch不光有搜索的功能,还有数据抓取的功能。在nutch0.8.0版本之前,Hadoop还属于
Nutch的一部分,而从nutch0.8.0开始,将其中实现的NDFS和MapReduce剥离出来成立一个新的开源项目,这就是Hadoop,而
nutch0.8.0版本较之以前的Nutch在架构上有了根本性的变化,那就是完全构建在Hadoop的基础之上了。在Hadoop中实现了
Google的GFS和MapReduce算法,使Hadoop成为了一个分布式的计算平台。
   其实,Hadoop并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。
   Hadoop包含两个部分:
   1、HDFS

      即Hadoop Distributed File System (Hadoop分布式文件系统)
      HDFS
具有高容错性,并且可以被部署在低价的硬件设备之上。HDFS很适合那些有
[url=javascript:;]大数[/url]
据集的应用,并且提供了对数据读写的高吞吐率。HDFS是一个
master/slave的结构,就通常的部署来说,在master上只运行一个Namenode,而在每一个slave上运行一个Datanode。
      HDFS
支持传统的层次文件组织结构,同现有的一些文件系统在操作上很类似,比如你可以创建和删除一个文件,把一个文件从一个目录移到另一个目录,重命名等等操
作。Namenode管理着整个分布式文件系统,对文件系统的操作(如建立、删除文件和文件夹)都是通过Namenode来控制。
     下面是HDFS的结构:

      从上面的图中可以看出,

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:启用Lighttpd的port-based Virtual Host功能

下一篇:hadoop安装