spark save parquet in impala dir not support add columns - ⎝⎛CodingNote.cc ⎞⎠

spark save parquet in impala dir not support add columns

2020 年 3 月 30 日
笔记

1.问题：项目中使用 spark save parquet 到 impala( impala 为分区表 ) 的目录下面，然后在 impala 中添加字段，报错. 例如：我将 spark 生成的 parquet 数据放到 impala 表 event_s_p186 相应的目录下，然后添加字段 aaa，字段顺序如下：

报错如下：其中 day_id 为分区字段

2. 原因 impala( v3.2.0-cdh6.3.1 ) 默认的情况下是按照字段顺序读取数据的，添加了一个字段 aaa ，由于 parquet 中的数据并没有 aaa ，也没有 aaa 的占位符，它会默认把 day_id 当做 aaa.

3.解决办法： set PARQUET_FALLBACK_SCHEMA_RESOLUTION=name;

4.参考： Hive vs Impala Schema Loading Case: Reading Parquet Files PARQUET_FALLBACK_SCHEMA_RESOLUTION Query Option (CDH 5.8 or higher only)

Previous post

漫画：滑动窗口系列第一讲（滑动窗口最大值）

Next post

用nextcloud搭建个人网盘