Hadoop 基础教程

Hadoop 笔记

Hadoop 入门介绍


Apache Hadoop 是一款支持数据密集型分布式应用程序,并以 Apache 2.0 许可协议发布的开源软件框架。它是根据谷歌公司发表的 MapReduce 和 Google 文件系统的论文自行实现而成。

项目

Hadoop 它是一个平台,包括 Hadoop 内核、MapReduce、Hadoop 分布式文件系统(HDFS)以及一些相关项目,有 Apache Hive 和 Apache HBase 等等。

主要子项目

  • MapReduce:并行计算框架,在 0.20 版本之前,使用 org.apache.hadoop.mapred 旧接口,0.20 版本开始引入 org.apache.hadoop.mapreduce 的新 API。
  • HDFS:Hadoop 分布式文件系统,英文全称 Hadoop Distributed File System。
  • Hadoop Common:在 0.20 及以前的版本中,包含 HDFS、MapReduce 和其他项目公共内容,从 0.21 开始,HDFS 和 MapReduce 被分离为独立的子项目,其余内容为 Hadoop Common。

相关项目

  • Apache HBase:分布式 NoSQL 列数据库,类似谷歌公司 BigTable。
  • Apache Hive:构建于 hadoop 之上的数据仓库,通过一种类 SQL 语言 HiveQL 为用户提供数据的归纳、查询和分析等功能。Hive 最初由 Facebook 贡献。
  • Apache Mahout:机器学习算法软件包。
  • Apache Sqoop:结构化数据(如关系数据库)与 Apache Hadoop 之间的数据转换工具。
  • Apache ZooKeeper:分布式锁设施,提供类似 Google Chubby 的功能,由 Facebook 贡献。
  • Apache Avro:新的数据序列化格式与传输工具,将逐步取代 Hadoop 原有的 IPC 机制。