DDL数据定义
本文主要介绍Hive数据库与表的核心操作。数据库操作包括:创建(支持指定HDFS路径、if not exists避免重复)、查询(show/ desc database)、修改(仅可更新DBPROPERTIES属性)、删除(空库直接删,非空需cascade强制删)。表操作涵盖:创建(详细语法说明EXTERNAL、COMMENT、PARTITIONED BY等关键字作用)、管理表类型(内部表数据随表删除,外部表仅删元数据)、二者转换(通过ALTER TABLE修改EXTERNAL属性)、修改表(重命名、增删改列、调整分区)、删除表及truncate(仅能清空管理表数据)。内容通过案例实操演示各命令用法,强调内部表与外部表在数据生命周期管理上的差异。
密码测试页面
本文介绍为Hexo博客文章添加密码加密的方法。首先需安装Hexo-Blog-Encrypt插件,通过`npm install --save hexo-blog-encrypt`或`yarn add hexo-blog-encrypt`完成。基础使用仅需在文章头部Front-matter中添加`password: 密码`字段。高级设置支持自定义加密提示(如abstract、message)、按标签加密(在_config.yml中配置tags)、选择加密主题(如butterfly),以及禁用Tag加密(将password设为空字符串)。若解密后元素显示异常,可通过文章末尾添加Callback函数解决,还可配置禁用Log输出。整体操作简便,能有效保护博客私人内容。
学习
未读
Hive数据类型
Hive数据类型分为基本数据类型和集合数据类型。基本类型包括TINYINT(byte)、SMALLINT(short)、INT(int)、BIGINT(long)、BOOLEAN、FLOAT、DOUBLE及STRING(可变字符串,最大2GB),与Java类型对应。集合类型有STRUCT(类似C语言struct,通过点访问元素)、MAP(键值对集合,数组访问)和ARRAY(同类型元素集合,下标从0开始),支持任意层次嵌套。类型转换方面,整数类型可隐式转更广类型(如INT转BIGINT),整数、FLOAT、STRING可转DOUBLE,BOOLEAN不可转换;可通过CAST显式转换(如CAST('1' AS INT)),失败返回NULL。
学习
未读
Hive基本概念
Hive是Facebook开源的基于Hadoop的数据仓库工具,用于处理结构化数据,提供类SQL(HQL)查询功能,本质是将HQL转化为MapReduce程序。数据存储于HDFS,底层由MapReduce计算,运行在Yarn上,通过元数据解析结构化文件。架构包括用户接口(CLI、JDBC/ODBC)、元数据(Metastore,推荐MySQL)、Hadoop集群及驱动器(解析、编译、优化、执行)。与MySQL相比,Hive支持大数据PB级分析,但仅支持insert不支持行更新;优势为类SQL易上手、减少开发成本、适合大数据场景;缺点是HQL表达能力有限、执行延迟高、不支持实时查询。
学习
未读
Hive安装
本文主要介绍Hadoop与Hive的配置、安装及部署。首先修改Hadoop参数:core-site.xml配置代理用户主机、组及用户;yarn-site.xml调整NodeManager内存(4G)、容器最小/最大内存(512M/4G)及关闭虚拟内存检查。随后进行Hive解压安装,上传至/opt/module并配置环境变量。元数据部署分两种:Derby内嵌模式(单进程,多窗口操作冲突)和MySQL元数据服务模式(需配置hive-site.xml,启动metastore服务支持多客户端)。最后,Hive访问方式包括命令行和HiveServer2(JDBC),后者需配置thrift连接并解决用户代理问题。
ubuntu系统基本操作命令
本文总结了Linux系统常用命令的核心功能:文件操作类(ls, cd, mkdir, rm, cp, mv, touch, cat, chmod, chown)用于管理文件与目录;系统管理类(sudo, apt-get, ps, kill, reboot, shutdown, df, du, free, top, man)支持软件安装、进程控制及资源监控;网络类(ping, ifconfig, scp, ssh)实现远程连接与网络诊断;压缩类(tar)处理文件打包解压;搜索类(grep, find, locate)快速定位文件;磁盘类(mount, fdisk, lsblk)管理存储分区;下载类(curl, wget)获取网络资源;会话类(logout, history)控制终端操作。这些命令覆盖日常系统管理、文件处理及网络维护等核心场景。
hadoop
Hadoop大数据开发基础涵盖其生态系统核心组件及特点。核心组件包括:HDFS(分布式文件系统,存储大数据集,分块存储保障高吞吐与容错)、YARN(资源管理器,负责集群资源分配与任务调度)、MapReduce(分布式计算框架,通过Map(数据处理)和Reduce(结果合并)阶段实现并行计算),以及Hadoop Common(共用库工具)。此外,生态系统还包括Hive(数据仓库工具,支持类SQL查询)、HBase(分布式列式数据库)、ZooKeeper(分布式协调服务)等。Hadoop特点突出:可扩展(支持节点动态扩展)、容错(节点故障自动恢复)、高吞吐(并行处理大数据)、低成本(基于廉价服务器)、灵活(多数据格式支持)及可跨平台运行。