千曦一梦 - 多喜乐，常安宁

未读

DDL数据定义

本文主要介绍Hive数据库与表的核心操作。数据库操作包括：创建（支持指定HDFS路径、if not exists避免重复）、查询（show/ desc database）、修改（仅可更新DBPROPERTIES属性）、删除（空库直接删，非空需cascade强制删）。表操作涵盖：创建（详细语法说明EXTERNAL、COMMENT、PARTITIONED BY等关键字作用）、管理表类型（内部表数据随表删除，外部表仅删元数据）、二者转换（通过ALTER TABLE修改EXTERNAL属性）、修改表（重命名、增删改列、调整分区）、删除表及truncate（仅能清空管理表数据）。内容通过案例实操演示各命令用法，强调内部表与外部表在数据生命周期管理上的差异。

Hive 笔记学习 2024-08-22

未读

密码测试页面

本文介绍为Hexo博客文章添加密码加密的方法。首先需安装Hexo-Blog-Encrypt插件，通过`npm install --save hexo-blog-encrypt`或`yarn add hexo-blog-encrypt`完成。基础使用仅需在文章头部Front-matter中添加`password: 密码`字段。高级设置支持自定义加密提示（如abstract、message）、按标签加密（在_config.yml中配置tags）、选择加密主题（如butterfly），以及禁用Tag加密（将password设为空字符串）。若解密后元素显示异常，可通过文章末尾添加Callback函数解决，还可配置禁用Log输出。整体操作简便，能有效保护博客私人内容。

2024-08-06

技巧未读

图片防盗链

部分网站图片无法显示的主要原因是图片防盗链技术，该技术通过HTTP请求头的Referer字段验证请求来源，非指定域名则拒绝访问。解决方案包括：1. 修改图片服务器配置，允许指定Referer或删除Header；2. 在网页中使用meta标签（如referrer="no-referrer"）或img标签的referrerPolicy属性控制Referer；3. 后台预下载图片。此外，语雀导出md文件时需删除URL中的#clientId部分，hexo博客可在md文件中添加meta标签确保图片正常显示。

技术 2024-07-31

学习未读

Hive数据类型

Hive数据类型分为基本数据类型和集合数据类型。基本类型包括TINYINT（byte）、SMALLINT（short）、INT（int）、BIGINT（long）、BOOLEAN、FLOAT、DOUBLE及STRING（可变字符串，最大2GB），与Java类型对应。集合类型有STRUCT（类似C语言struct，通过点访问元素）、MAP（键值对集合，数组访问）和ARRAY（同类型元素集合，下标从0开始），支持任意层次嵌套。类型转换方面，整数类型可隐式转更广类型（如INT转BIGINT），整数、FLOAT、STRING可转DOUBLE，BOOLEAN不可转换；可通过CAST显式转换（如CAST('1' AS INT)），失败返回NULL。

Hive 笔记 2024-06-27

学习未读

Hive基本概念

Hive是Facebook开源的基于Hadoop的数据仓库工具，用于处理结构化数据，提供类SQL（HQL）查询功能，本质是将HQL转化为MapReduce程序。数据存储于HDFS，底层由MapReduce计算，运行在Yarn上，通过元数据解析结构化文件。架构包括用户接口（CLI、JDBC/ODBC）、元数据（Metastore，推荐MySQL）、Hadoop集群及驱动器（解析、编译、优化、执行）。与MySQL相比，Hive支持大数据PB级分析，但仅支持insert不支持行更新；优势为类SQL易上手、减少开发成本、适合大数据场景；缺点是HQL表达能力有限、执行延迟高、不支持实时查询。

Hive 笔记 2024-06-25

学习未读

Hive安装

本文主要介绍Hadoop与Hive的配置、安装及部署。首先修改Hadoop参数：core-site.xml配置代理用户主机、组及用户；yarn-site.xml调整NodeManager内存（4G）、容器最小/最大内存（512M/4G）及关闭虚拟内存检查。随后进行Hive解压安装，上传至/opt/module并配置环境变量。元数据部署分两种：Derby内嵌模式（单进程，多窗口操作冲突）和MySQL元数据服务模式（需配置hive-site.xml，启动metastore服务支持多客户端）。最后，Hive访问方式包括命令行和HiveServer2（JDBC），后者需配置thrift连接并解决用户代理问题。

Hive 笔记 2024-06-20

未读

ubuntu系统基本操作命令

本文总结了Linux系统常用命令的核心功能：文件操作类（ls, cd, mkdir, rm, cp, mv, touch, cat, chmod, chown）用于管理文件与目录；系统管理类（sudo, apt-get, ps, kill, reboot, shutdown, df, du, free, top, man）支持软件安装、进程控制及资源监控；网络类（ping, ifconfig, scp, ssh）实现远程连接与网络诊断；压缩类（tar）处理文件打包解压；搜索类（grep, find, locate）快速定位文件；磁盘类（mount, fdisk, lsblk）管理存储分区；下载类（curl, wget）获取网络资源；会话类（logout, history）控制终端操作。这些命令覆盖日常系统管理、文件处理及网络维护等核心场景。

笔记 linux 2024-06-11

未读

hadoop

Hadoop大数据开发基础涵盖其生态系统核心组件及特点。核心组件包括：HDFS（分布式文件系统，存储大数据集，分块存储保障高吞吐与容错）、YARN（资源管理器，负责集群资源分配与任务调度）、MapReduce（分布式计算框架，通过Map（数据处理）和Reduce（结果合并）阶段实现并行计算），以及Hadoop Common（共用库工具）。此外，生态系统还包括Hive（数据仓库工具，支持类SQL查询）、HBase（分布式列式数据库）、ZooKeeper（分布式协调服务）等。Hadoop特点突出：可扩展（支持节点动态扩展）、容错（节点故障自动恢复）、高吞吐（并行处理大数据）、低成本（基于廉价服务器）、灵活（多数据格式支持）及可跨平台运行。

笔记 hadoop 2024-05-30

未读

python

本文介绍了Python编程基础，包括语言特性（易读性、简洁语法）、环境搭建（跨平台安装指南）、核心概念（变量、数据类型、控制流）、数据结构（列表、字典等）、函数定义与匿名函数、面向对象编程（封装/继承/多态）、文件操作方法以及模块和第三方库的使用。文章通过实例演示了基本语法和常用操作，适合初学者系统学习Python编程基础。

笔记 2024-05-28

未读

Excel

本文系统介绍Excel数据分析与实战，涵盖数据分析全流程：数据准备（清洗、排序、筛选）、分析（描述统计、函数应用、工具包）、可视化（图表、条件格式、透视表）及建模（预测、优化）。实战应用涉及市场、财务、运营、人力资源等多场景。同时，讲解Excel基础操作（界面、数据输入、格式设置）、公式函数（数组公式、日期时间、数学统计文本逻辑函数）、数据获取（手动输入、网络/数据库导入、Power Query）及高级功能（宏/VBA、Power Pivot）。强调通过透视表和透视图实现动态数据探索，助力高效决策与数据驱动分析。

笔记 2024-04-29