任务描述
在一个文件夹下有几百个文本文件,每个文件内容的格式相同,都是有固定分隔符的两列,每个文件有几千行记录。
Kettle的转换处理数据流,其中有一个“文本文件输入”的输入对象,可以使用它在导入文件数据时添加上文件名字段,而且支持正则表达式同时获取多个文件名,正好适用此场景。
操作过程
1. 新建一个转换
包含“获取文件名”、“拆分字段2”、“拆分字段”、“表输出”四个步骤,如下图所示。
2. “文本文件输入”
如下图所示。 正则表达式^test.+ 意思是查找以test开头的文件。
3.拆分字段
按照分隔符“|”将字段field_1拆成field_000和field_111
5.表输出
6.启动运行
评论区(0)