如何把json文件放在hive表

Hive中加载与管理JSON文件的实用指南

在大数据时代,处理半结构化数据如JSON（JavaScript Object Notation）已成为常态，Apache Hive作为构建在Hadoop之上的数据仓库工具，提供了灵活的方式来处理这类数据，将JSON文件加载到Hive表中是许多数据分析场景的常见需求，本文将详细介绍如何将JSON文件放置（更准确地说是“加载”）到Hive表中，涵盖从准备阶段到查询数据的完整流程。

准备工作：JSON文件与Hive环境

在开始之前,请确保以下条件已满足：

Hive环境已安装并配置好：Hive服务正在运行，并且您有足够的权限创建数据库、表和执行查询。
Hadoop集群已就绪：Hive依赖于HDFS存储数据，因此Hadoop集群需要正常工作。
JSON文件已准备好：您有一个或多个符合特定结构的JSON文件，这些文件可以位于本地文件系统，但更常见的是先上传到HDFS。
了解JSON结构：明确JSON文件中的字段名、数据类型以及嵌套结构，这将帮助您设计Hive表。

核心步骤：将JSON文件加载到Hive表

将JSON文件“放入”Hive表，通常不是简单的文件复制，而是通过创建一个指向数据文件（或包含数据文件路径）的表结构，并让Hive能够解析这些数据，以下是主要步骤：

步骤1：将JSON文件上传到HDFS

Hive表的数据通常存储在HDFS上,首先需要将您的JSON文件从本地系统上传到HDFS的某个目录。

# 假设HDFS目录为 /user/hive/warehouse/json_data/
# 本地JSON文件为 /path/to/your/local_data.json
hdfs dfs -put /path/to/your/local_data.json /user/hive/warehouse/json_data/

上传后,您可以通过hdfs dfs -ls /user/hive/warehouse/json_data/来确认文件是否存在。

步骤2：创建Hive表以存储JSON数据

根据JSON文件的复杂程度,创建Hive表的方法有所不同，主要分为两类：

A. 使用 ROW FORMAT SERDE 处理复杂嵌套JSON

这是处理JSON最推荐和最灵活的方法,特别是当JSON结构复杂或包含嵌套对象/数组时，Hive提供了内置的 org.openx.data.jsonserde.JsonSerDe 来解析JSON数据。

创建表并指定SerDe：
```
CREATE TABLE IF NOT EXISTS my_json_table (
  id INT,
  name STRING,
  age INT,
  email STRING,
  address STRUCT<street:STRING, city:STRING, zip:INT>,
  hobbies ARRAY<STRING>
)
ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
STORED AS TEXTFILE
LOCATION '/user/hive/warehouse/json_data/';
```
- my_json_table：您创建的表名。
- 表定义部分：根据您的JSON文件结构定义字段名和数据类型，对于嵌套对象，使用STRUCT；对于数组，使用ARRAY。
- ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'：指定使用JSON SerDe来序列化和反序列化数据。
- STORED AS TEXTFILE：表示数据以纯文本形式存储（JSON本身就是文本）。
- LOCATION：指定数据在HDFS上的存储路径，这里指向我们之前上传JSON文件的目录。
（可选）使用 CREATE TABLE AS SELECT (CTAS) 或 LOAD DATA：
- 如果您的JSON文件每一行都是一个完整的JSON对象（最常见的情况），并且表已经创建好，您可以直接使用LOAD DATA：
```
LOAD DATA INPATH '/user/hive/warehouse/json_data/local_data.json' INTO TABLE my_json_table;
```
  这会将HDFS上的文件移动到表的目录下（注意：原文件会被移动，而非复制）。
- 如果您想通过查询结果创建表并加载JSON数据（可能涉及转换），可以使用CTAS，但这通常用于从其他表加载数据而非直接加载JSON文件。

B. 使用 GET_JSON_OBJECT UDF处理简单JSON

如果JSON结构相对简单,或者您只需要提取其中的部分字段，也可以使用Hive内置的 GET_JSON_OBJECT 函数，这种方法通常不用于创建整个表结构，而是在查询时动态解析。

创建一个普通的TEXTFILE表：假设JSON文件每一行是一个JSON对象：

CREATE TABLE raw_json_table (
  json_string STRING
)
ROW FORMAT DELIMITED
STORED AS TEXTFILE
LOCATION '/user/hive/warehouse/json_data/';

然后加载数据：

LOAD DATA INPATH '/user/hive/warehouse/json_data/local_data.json' INTO TABLE raw_json_table;

查询时使用 GET_JSON_OBJECT：

SELECT
  GET_JSON_OBJECT(json_string, '$.id') AS id,
  GET_JSON_OBJECT(json_string, '$.name') AS name,
  GET_JSON_OBJECT(json_string, '$.address.city') AS city
FROM
  raw_json_table;

$.id：表示JSON对象中"id"字段的值，代表根对象。
对于嵌套对象,使用点号或[]来访问，如$.address.city。

C. 使用 json_tuple UDF处理多个字段

json_tuple 函数可以一次性从JSON字符串中提取多个指定字段，比多次调用 GET_JSON_OBJECT 更高效。

SELECT
  jt.id,
  jt.name,
  jt.age
FROM
  raw_json_table,
  LATERAL VIEW json_tuple(json_string, 'id', 'name', 'age') jt AS id, name, age;

步骤3：验证数据加载

创建表并加载数据后,务必进行验证。

查询表的前几行：
```
SELECT * FROM my_json_table LIMIT 10;
```
如果使用SerDe创建的表,此查询会直接解析并显示结构化数据。如果使用raw_json_table，则查询会显示原始JSON字符串。
检查数据条数：
```
SELECT COUNT(*) FROM my_json_table;
```
查看HDFS目录：确认HDFS上表目录下是否有数据文件，以及文件数量是否符合预期。

常见问题与注意事项

JSON格式严格性：
- 使用SerDe时,要求JSON文件中的每一行都必须是一个完整的、格式正确的JSON对象，如果一行中有多个JSON对象或JSON对象跨行，解析会失败。
- 文件末尾不应有逗号或其他无关字符。
字段名匹配： Hive表中的字段名应与JSON对象中的key名称保持一致（除非使用列映射或别名）。
数据类型转换： SerDe会尝试将JSON值转换为Hive定义的数据类型，如果转换失败（将字符串"abc"转换为INT），可能会导致查询错误或返回NULL。
性能考虑：
- 对于大型JSON文件,使用SerDe创建结构化表通常比查询时使用UDF解析性能更好，因为SerDe在数据加载时（或查询时）进行了一次性解析。
- 如果JSON文件非常庞大且查询频繁,考虑将其转换为Parquet等列式存储格式以提高查询性能。
NULL值处理： JSON中的null值会被转换为Hive中的NULL。
复杂嵌套处理：对于极其复杂的嵌套JSON，可能需要仔细设计表结构，或者考虑使用Hive的ARRAY、MAP、STRUCT类型进行建模，如果SerDe无法满足需求，还可以考虑使用第三方的SerDe，如org.apache.hive.hcatalog.data.JsonSerDe或org.apache.hive.hcatalog.data.JsonSerDe（HCatalog相关）或其他社区推荐的SerDe。

将JSON文件加载到Hive表是大数据处理中的基础操作,核心在于理解Hive如何通过SerDe或UDF来解析JSON数据，对于大多数场景，使用org.openx.data.jsonserde.JsonSerDe创建结构化表是首选方案，因为它提供了更好的查询性能和数据管理能力，在实际操作中，确保JSON文件的格式正确、表结构与JSON数据结构匹配，并进行充分的验证，是成功加载和后续分析的关键，随着Hive版本的更新，其对JSON的支持也在不断增强，建议关注官方文档以获取最新的特性和最佳实践。

企鹅直播企鹅直播足球直播爱奇艺直播爱奇艺足球直播足球直播足球直播