学习
未读
Hive数据类型
Hive数据类型分为基本数据类型和集合数据类型。基本类型包括TINYINT(byte)、SMALLINT(short)、INT(int)、BIGINT(long)、BOOLEAN、FLOAT、DOUBLE及STRING(可变字符串,最大2GB),与Java类型对应。集合类型有STRUCT(类似C语言struct,通过点访问元素)、MAP(键值对集合,数组访问)和ARRAY(同类型元素集合,下标从0开始),支持任意层次嵌套。类型转换方面,整数类型可隐式转更广类型(如INT转BIGINT),整数、FLOAT、STRING可转DOUBLE,BOOLEAN不可转换;可通过CAST显式转换(如CAST('1' AS INT)),失败返回NULL。
学习
未读
Hive基本概念
Hive是Facebook开源的基于Hadoop的数据仓库工具,用于处理结构化数据,提供类SQL(HQL)查询功能,本质是将HQL转化为MapReduce程序。数据存储于HDFS,底层由MapReduce计算,运行在Yarn上,通过元数据解析结构化文件。架构包括用户接口(CLI、JDBC/ODBC)、元数据(Metastore,推荐MySQL)、Hadoop集群及驱动器(解析、编译、优化、执行)。与MySQL相比,Hive支持大数据PB级分析,但仅支持insert不支持行更新;优势为类SQL易上手、减少开发成本、适合大数据场景;缺点是HQL表达能力有限、执行延迟高、不支持实时查询。
学习
未读
Hive安装
本文主要介绍Hadoop与Hive的配置、安装及部署。首先修改Hadoop参数:core-site.xml配置代理用户主机、组及用户;yarn-site.xml调整NodeManager内存(4G)、容器最小/最大内存(512M/4G)及关闭虚拟内存检查。随后进行Hive解压安装,上传至/opt/module并配置环境变量。元数据部署分两种:Derby内嵌模式(单进程,多窗口操作冲突)和MySQL元数据服务模式(需配置hive-site.xml,启动metastore服务支持多客户端)。最后,Hive访问方式包括命令行和HiveServer2(JDBC),后者需配置thrift连接并解决用户代理问题。