Hive 基本教程

Hive 简介

Hive SQL

Hive 笔记

Hive 笔记

本文链接：https://www.knowledgedict.com/tutorial/hive-sql-distinct-detail.html

hive distinct 去重及多个字段等优化用法

Hive SQL 数据操作（DML）详解

Hive SQL 的 DISTINCT 是去重指定字段之用，和 GRUOP BY 有类似的功能，与其对应的其实是 ALL，表示返回所有匹配的行，只是默认就是 ALL，常常使用时不会显性指定。

1语法
2所有列去重
3DISTINCT 和聚合函数一起使用
4COUNT(DISTINCT col) 优化

语法

......
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
  FROM table_reference
  ......

DISTINCT 在 SELECT 查询语句中，如上。

所有列去重

DISTINCT 后面跟随所有要去重的字段，如下：

SELECT DISTINCT user_id, order_id, status FROM t1

这样 DISTINCT 后的所有列重复的数据去除了。

hive 中，使用 DISTINCT 必须在 SELECT 的最前面，不能在 DISTINCT 的前面加列名，否则会报错。

还有另外去重所有列的方式是将所有列用小括号包在里面，并用 DISTINCT 修饰，如下代码等同于上面：

SELECT DISTINCT (user_id, order_id, status) FROM t1

DISTINCT 和聚合函数一起使用

DISTINCT 不能和聚合函数并列使用，否则会报错：

SELECT DISTINCT user_id, order_id, status, COUNT(order_id) FROM t1
FAILED: SemanticException [Error 10128]: Line 1:44 Not yet supported place for UDAF 'COUNT'

但是，DISTINCT 能和聚合函数嵌套使用：

SELECT COUNT(DISTINCT user_id) FROM t1

COUNT(DISTINCT col) 优化

DISTINCT 是比较耗性能的操作，如果能用 GROUP BY 代替尽量用它，因为 GROUP BY 的性能好于 DISTINCT。

MongoDB distinct 去重字段方法详解

MongoDB 的 shell 操作去重字段的查询采用 db.collection.distinct 命令。 ...

elasticsearch查询优化

当涉及Elasticsearch查询优化时，有许多技术和策略可以帮助提高性能和效率。###使用过滤器来缓存频繁查询过滤器在Elasticse ...

Hive SQL 语句中 case when 多个条件及嵌套的用法

Hive SQL 语句中，case when 可以有多个条件的判断，也可以进行组合嵌套。 ...

hive insert overwrite 的用法详解

在Hive中，INSERTOVERWRITE和INSERTINTO是用于将数据加载到表中的两种常见方式。示例代码：INSERTOVERWRI ...

Elasticsearch 性能优化

Elasticsearch 作为一个开箱即用的产品，在生产环境上线之后，我们其实不一定能确保其的性能和稳定性。如何根据实际情况提高服务的性能 ...