Impala 使用RCFile文件格式


Impala 支持使用 RCFile 数据文件。

文件类型

格式

压缩编解码器

Impala 可以创造吗?

Impala 可以插入吗?

RCFile

结构化的

活泼,gzip,放气,bzip2

是的。

否。通过使用LOAD DATA已经采用正确格式的数据文件导入数据,或者INSERT在 Hive 中使用,然后在 Impala 中使用。 REFRESH table_name

创建 RCFile 表和加载数据

如果您没有要使用的现有数据文件,请先以适当的格式创建一个。

创建 RCFile 表:

impala-shell解释器中,发出类似于以下内容的命令:

create table rcfile_table (column_specs) stored as rcfile;

因为Impala 可以查询它当前无法写入的某些类型的表,所以在创建某些文件格式的表后,您可以使用Hive shell 加载数据。

通过Hive或Impala之外的其他机制将数据加载到表中后, 下次连接Impala节点时,在查询表之前发出一条语句,使Impala识别新数据。 REFRESH table_name

例如,您可以通过以下方式在 Impala 中创建一些 RCFile 表(通过显式指定列,或克隆另一个表的结构),通过 Hive 加载数据,并通过 Impala 查询它们:

$ impala-shell -i localhost
[localhost:21000] > create table rcfile_table (x int) stored as rcfile;
[localhost:21000] > create table rcfile_clone like some_other_table stored as rcfile;
[localhost:21000] > quit;

$ hive
hive> insert into table rcfile_table select x from some_other_table;
3 Rows loaded to rcfile_table
Time taken: 19.015 seconds
hive> quit;

$ impala-shell -i localhost
[localhost:21000] > select * from rcfile_table;
Returned 0 row(s) in 0.23s
[localhost:21000] > -- Make Impala recognize the data loaded through Hive;
[localhost:21000] > refresh rcfile_table;
[localhost:21000] > select * from rcfile_table;
+---+
| x |
+---+
| 1 |
| 2 |
| 3 |
+---+
Returned 3 row(s) in 0.23s

复杂类型注意事项:虽然您可以使用Impala 2.3及更高版本中提供的复杂类型(ARRAYSTRUCT、 和 MAP)以这种文件格式创建表,但目前,Impala 只能在 Parquet 表中查询这些类型。 上述规则的一个例外是对包含复杂类型的 RCFile 表的查询。Impala 2.6及更高版本中允许此类查询 。COUNT(*)

为 RCFile 表启用压缩

您可能希望对现有表启用压缩。在大多数情况下启用压缩可提供性能提升,并且支持 RCFile 表。例如,要启用 Snappy 压缩,您需要在通过 Hive shell 加载数据时指定以下附加设置:

hive> SET hive.exec.compress.output=true;
hive> SET mapred.max.split.size=256000000;
hive> SET mapred.output.compression.type=BLOCK;
hive> SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
hive> INSERT OVERWRITE TABLE new_table SELECT * FROM old_table;

如果要转换分区表,则必须完成其他步骤。在这种情况下,请指定类似于以下内容的其他设置:

hive> CREATE TABLE new_table (your_cols) PARTITIONED BY (partition_cols) STORED AS new_format;
hive> SET hive.exec.dynamic.partition.mode=nonstrict;
hive> SET hive.exec.dynamic.partition=true;
hive> INSERT OVERWRITE TABLE new_table PARTITION(comma_separated_partition_cols) SELECT * FROM old_table;

请记住,Hive 不要求您为其指定源格式。考虑转换表中有两个叫做分区列的情况下year,并month以一个活泼的压缩RCFile。结合前面概述的组件以完成此表转换,您将指定类似于以下内容的设置:

hive> CREATE TABLE tbl_rc (int_col INT, string_col STRING) STORED AS RCFILE;
hive> SET hive.exec.compress.output=true;
hive> SET mapred.max.split.size=256000000;
hive> SET mapred.output.compression.type=BLOCK;
hive> SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
hive> SET hive.exec.dynamic.partition.mode=nonstrict;
hive> SET hive.exec.dynamic.partition=true;
hive> INSERT OVERWRITE TABLE tbl_rc SELECT * FROM tbl;

笔记:

压缩类型在以下命令中指定:

SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

您可以选择指定替代编解码器,例如GzipCodec此处。

Impala RCFile 表的查询性能

通常,期望使用 RCFile 表的查询性能比使用文本数据的表快,但比使用 Parquet 表慢。

在Impala 2.6及更高版本中,Impala 查询针对存储在 Amazon S3 中的文件进行了优化。对于使用文件格式的实木复合地板,ORC,RCFile,SequenceFile,Avro的,和未压缩文本因帕拉表中,设置 fs.s3a.block.size了在核心的site.xml 配置文件决定帕拉如何划分的读取数据文件的I / O工作。此配置设置以字节为单位指定。默认情况下,此值为 33554432 (32 MB),这意味着 Impala 将文件上的 S3 读取操作并行化,就好像它们由 32 MB 块组成一样。例如,如果您的 S3 查询主要访问由 MapReduce 或 Hive 编写的 Parquet 文件,则增加fs.s3a.block.size到 134217728 (128 MB) 以匹配这些文件的行组大小。如果大多数 S3 查询涉及 Impala 编写的 Parquet 文件,请增加到fs.s3a.block.size268435456 (256 MB) 以匹配 Impala 生成的行组大小。