Kettle 导入文件夹下的多个文件


任务描述

在一个文件夹下有几百个文本文件,每个文件内容的格式相同,都是有固定分隔符的两列,每个文件有几千行记录。

Kettle的转换处理数据流,其中有一个“文本文件输入”的输入对象,可以使用它在导入文件数据时添加上文件名字段,而且支持正则表达式同时获取多个文件名,正好适用此场景。

操作过程

1. 新建一个转换

包含“获取文件名”、“拆分字段2”、“拆分字段”、“表输出”四个步骤,如下图所示。

kettle,kettle导入文件,kettle文件,拆分字段

2. “文本文件输入”

如下图所示。 正则表达式^test.+   意思是查找以test开头的文件。

kettle,kettle导入文件,kettle文件,拆分字段

3.拆分字段

按照分隔符“|”将字段field_1拆成field_000和field_111

kettle,kettle导入文件,kettle文件,拆分字段

5.表输出

kettle,kettle导入文件,kettle文件,拆分字段

kettle,kettle导入文件,kettle文件,拆分字段

6.启动运行


评论区(0)

评论