Hadoop 基础教程

Hadoop 笔记

original icon
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.knowledgedict.com/tutorial/hadoop-intro.html

Hadoop 入门介绍


Apache Hadoop 是一款支持数据密集型分布式应用程序,并以 Apache 2.0 许可协议发布的开源软件框架。它是根据谷歌公司发表的 MapReduce 和 Google 文件系统的论文自行实现而成。

项目

Hadoop 它是一个平台,包括 Hadoop 内核、MapReduce、Hadoop 分布式文件系统(HDFS)以及一些相关项目,有 Apache Hive 和 Apache HBase 等等。

主要子项目

  • MapReduce:并行计算框架,在 0.20 版本之前,使用 org.apache.hadoop.mapred 旧接口,0.20 版本开始引入 org.apache.hadoop.mapreduce 的新 API。
  • HDFS:Hadoop 分布式文件系统,英文全称 Hadoop Distributed File System。
  • Hadoop Common:在 0.20 及以前的版本中,包含 HDFS、MapReduce 和其他项目公共内容,从 0.21 开始,HDFS 和 MapReduce 被分离为独立的子项目,其余内容为 Hadoop Common。

相关项目

  • Apache HBase:分布式 NoSQL 列数据库,类似谷歌公司 BigTable。
  • Apache Hive:构建于 hadoop 之上的数据仓库,通过一种类 SQL 语言 HiveQL 为用户提供数据的归纳、查询和分析等功能。Hive 最初由 Facebook 贡献。
  • Apache Mahout:机器学习算法软件包。
  • Apache Sqoop:结构化数据(如关系数据库)与 Apache Hadoop 之间的数据转换工具。
  • Apache ZooKeeper:分布式锁设施,提供类似 Google Chubby 的功能,由 Facebook 贡献。
  • Apache Avro:新的数据序列化格式与传输工具,将逐步取代 Hadoop 原有的 IPC 机制。
本节收集了 Hadoop 相关开发中遇到的问题、关键知识点等笔记。 ...
Lombok(ProjectLombok)是一个用于Java编程语言的开源库,旨在减少Java代码中的冗余和样板代码,提高开发人员的生产力。 ...
这是一个Pandas快速入门教程,主要面向新用户。这里主要是为那些喜欢“短平快”的读者准备的,有兴趣的读者可通过其它教程文章来一步一步地更复 ...
Nginx 是由1994年毕业于俄罗斯国立莫斯科鲍曼技术大学的 Igor Sysoeyv 为俄罗斯访问量居首的 rambler.ru 站点设 ...
深度学习(deep learning)是机器学习的分支,是一种以人工神经网络为架构,对数据进行特征学习(表征学习)的算法。 ...