Hive 视图和索引
一、视图 1.1 简介 Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用视图时,Hive 可以将视图的定义与查询结合起来,例如将查询中的过滤器推送到视图中。 1.2 创建视图 ```plain text CREATE V...
一、视图 1.1 简介 Hive 中的视图和 RDBMS 中视图的概念一致,都是一组数据的逻辑表示,本质上就是一条 SELECT 语句的结果集。视图是纯粹的逻辑对象,没有关联的存储 (Hive 3.0.0 引入的物化视图除外),当查询引用视图时,Hive 可以将视图的定义与查询结合起来,例如将查询中的过滤器推送到视图中。 1.2 创建视图 ```plain text CREATE V...
一、数据准备 为了演示查询操作,这里需要预先创建三张表,并加载测试数据。 数据文件 emp.txt 和 dept.txt 可以从本仓库的resources 目录下载。 1.1 员工表 ```plain text – 建表语句 CREATE TABLE emp( empno INT, – 员工表编号 ename STRING, – 员工姓名 job STR...
一、加载文件数据到表 1.1 语法 ```plain text LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 …)] - LOCAL 关键字代表从本地文件系统加载文件,省略则代表从 HDFS 上加载文件: - 从本...
一、Database 1.1 查看数据列表 ```plain text show databases;  ### 1.2 使用数据库 ```plain text USE da...
一、分区表 1.1 概念 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的分区设计可以极大提高查询速度和性能。 这里说明一下分区表并 Hive 独有的概念,...
一、Hive CLI 1.1 Help 使用 hive -H 或者 hive –help 命令可以查看所有命令的帮助,显示如下: ```plain text usage: hive -d,–define <key=value> Variable subsitution to apply to hive ...
一、简介 Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。 特点: 简单、容易上手 (提供了类似 sql 的查询语言 hql),使得精通 sql 但是不了解 Java 编程的人也能很好地进行大数据分析; 灵活性高,...
一、安装Hive 1.1 下载并解压 下载所需版本的 Hive,这里我下载版本为 cdh5.15.2。下载地址:http://archive.cloudera.com/cdh5/cdh/5/ ```plain text 下载后进行解压 tar -zxvf hive-1.1.0-cdh5.15.2.tar.gz ### 1.2 配置环境变量 ```plain text # vim /...
常用调优工具 阿里巴巴Arthas详解 官方文档:https://alibaba.github.io/arthas Arthas使用 GC日志详解 对于java应用我们可以通过一些配置把程序运行过程中的gc日志全部打印出来,然后分析gc日志得到关键性指标,分析GC原因,调优JVM参数 打印GC日志的方法,在JVM参数里增加参数,%t表示时间 plain text 1 ‐Xlog...
mysql索引底层数据结构与算法 mysql索引底层数据结构与算法 索引是帮助mysql高效获取数据的排好的数据结构 索引数据结构 二叉树 因为是二叉树,极端情况下构建的树会变成链表结构,同样的,当数据量很大时,构建的二叉树深度过大,不利于查找 红黑树 虽然平衡了,但因为每一层所存储的节点个数不多,当数据量很大时,...