HBase 基础教程

HBase 简介

本文链接：https://www.knowledgedict.com/tutorial/hbase-intro.html

HBase 介绍

HBase 是一个开源的非关系型分布式数据库，它是 Apache 的 Hadoop 项目的一部分，运行于 HDFS 文件系统之上，其参考了 Google 的 Bigtable 思想，HBase 在 Hadoop 和 HDFS 之上提供类似于 Bigtable 的功能。

1特点
2历史

特点

HBase 在列上实现了 BigTable 论文提到的压缩算法、内存操作和布隆过滤器。HBase 的表能够作为 MapReduce 任务的输入和输出，也可以通过 REST、Avro 或者 Thrift 的 API 来访问。在 Eric Brewer 的 CAP 理论中，HBase 属于 CP 类型的系统。

线性和模块化可扩展性。
严格一致的读写。
表的自动和可配置分片。
RegionServer 之间的自动故障转移支持。
易于Java API 使用的客户端访问。
支持块缓存和布隆过滤器的实时查询。
支持 Thrift、Rest API 等访问。
可扩展的基于 Jruby 的（JIRB）Shell。

历史

HBase 于 2006 年诞生于 Powerset，一家从事自然语言处理和搜索的创业公司（后被微软收购）。

2006 年，Powerset 公司为了处理自然语言搜索产生的海量数据而开展了 HBase 项目。
2007 年 4 月，HBase 做为一个模块提交到 Hadoop 的代码库中，代码量在 8000 行。
2010 年 5 月，HBase 成为 Apache 的顶级项目，同年，Facebook 把 HBase 使用在其消息平台中。

Lombok 介绍

Lombok（ProjectLombok）是一个用于Java编程语言的开源库，旨在减少Java代码中的冗余和样板代码，提高开发人员的生产力。 ...

Nginx 介绍

Nginx 是由1994年毕业于俄罗斯国立莫斯科鲍曼技术大学的 Igor Sysoeyv 为俄罗斯访问量居首的 rambler.ru 站点设 ...

推荐系统介绍

推荐系统是一种信息过滤系统，用于预测用户对物品的“评分”或“偏好”。推荐系统近年来非常流行，应用于各行各业。推荐的对象包括：电影、音乐、新闻 ...

Spark MLlib 介绍

MLlib 是 Spark 中可扩展的机器学习库，它由一系列机器学习算法和实用程序组成, 包括分类、回归、聚类、协同过滤、降维，还包括一些底 ...

特征工程介绍

特征工程，是指用一系列工程化的方式从原始数据中筛选出更好的数据特征，以提升模型的训练效果。特征工程是机器学习、深度学习中不可或缺的一部分，在 ...