Talend 过滤数据


在本教程中,您将了解到tMap组件及其接口,并学会如何使用该组件进行过滤操作。

本教程中使用的软件版本为Talend Open Studio for Data Integration v6。

1 新建一个作业,添加moviesmetadata作为输入源,并添加一个tMap组件

1)创建一个名为tMapFilter的新标准作业。

2)添加一个电影元数据文件并将其作为输入的分隔组件

3)添加可以修改模式和过滤列的tMap组件。

4)通过链接两个组件,创建从电影组件到tMap_1组件的数据流

2 配置tMap_1组件的过滤列

1)选中tMap_1组件并双击

tMap_1的向导窗口有四个主要部分:

  • 左边部分:传入的数据流。这里需要注意的是,tMap组件可以有多个输入
  • 中间部分:输入和输出数据流之间的映射链接。您还可以在此处创建使用输入值的变量,然后用于生成输出。
  • 右侧部分:输出数据流
  • 底部:模式编辑器,可用于修改输入或输出数据流。要编辑模式,请选择要更改其模式的输入/输出流,并在模式编辑器中进行编辑。

2)为了创建一个新的输出组件,在tMap_1向导的输出部分中,点击[+]按钮,输出组件的名称命名为filteredOutput,点击OK,成功创建了一个空的输出组件。

3)输出数据新增列:在输出数据流模式编辑器中,单击[+]图标。

4)为电影ID定义一列(列:movieID,类型:整数,长度:4)。

注意:输出列名称不必与输入列的名称相同。要更改列名称,请在模式编辑器中更改相关数据。

5)将输入文件的movieID列中的数据传送到输出列中:单击movieID,按住并拖动到filteredOutputExpression列。作业窗口中会出现一个黄色箭头,这即为数据流。

6)将titlereleaseYear列添加到输出组件并进行相互链接:选择列并将其从输入组件拖动到输出组件

7)更改输出组件中列的顺序:单击[↑]或[↓]图标。列顺序以及相应的链接将被更新。

3 使用配置好的tMap_1组件

1)在控制台中输出tMap_1组件的数据:在作业设计器中添加tLogRow组件,并将tMap_1组件的输出链接tLogRow_1组件。

2)点击运行,在视图中运行作业。

此时,作业窗口中仅显示过滤后的电影数据(movieID、releaseYear 和 title)。


评论区(0)

评论