Talend 创建及使用元数据


在本教程中,您学会如何创建并使用元数据

本教程中使用的软件版本为Talend Open Studio for Data Integration v6。

Talend Open Studio 允许您使用预定义的组件创建和运行 Java ETL 程序或作业。

每个组件都可以配置为“内置”或“存储库”组件。

对于“内置”组件,它包含以下特性:

  • 在组件内定义。
  • 仅适用于该组件。
  • 不能与其他组件重复使用。

对于“存储库”组件,它包含以下特性:

  • 将另存为元数据。
  • 具备高效性与高复用性。
  • 易于维护,因为对元数据的更改可以链接到所有使用它的作业。

1 为分割文件创建元数据定义

1)在 Project Repository 中,单击 Metadata,右键单击 File delimited,然后单击 Create file delimited

2)名称字段中,命名为Movie并单击下一步。

3)点击“文件”字段旁边的“浏览”,从本地磁盘中读取movies文件,然后单击“打开”。该文件显示在向导的文件查看器部分。

4)单击下一步进行属性类型的定义设置。在出现的向导窗口中,您可以定义诸如读取文件的方式、读取文件时应跳过的行数(如果有需要的话)以及要处理的最大行数。

5)当文件的第一行是列名且需要进行忽略处理时,请在“预览”选项卡中选择“将标题行设置为列名”注意,此时标题复选框会自动选中值为 1。

6)单击“刷新预览”按钮,查看刚刚进行的一些更改操作,然后点击“下一步”。

7)在名称字段中,输入moviesSchema。如果文件第一行包含列名,那么它将会被显示出来。如果不包含,则该列将显示为列0、列1等,如有需要可以进行重命名。

8)更新显示的模式并查看示例文件的结构。在有需要时,您可以将 title 和 url 字段的长度分别更改为 100 和 250,并将directorID 的字段类型更改为整数。单击完成。

在项目存储库的元数据中,movie0.1的文件属性会与该文件入口一并显示。

如果您需要修改属性类型或相应模式,请右键单击 Project Repository 中的组件,然后选择 Edit File Delimited 或 Edit Schema。

2 使用元数据配置组件

1)创建一个新作业并重命名为useMetadata,并向其添加一个 tFileInputDelimited 组件。

注意:默认情况下,组件配置有“内置”参数。

2)在组件视图的属性类型字段中,选择Repository

3)选择元数据:单击字段旁边的 […],选择movie0.1,然后点击确定。

注意:这一步会显示元数据的参数集。并且,所有元数据的字段都是灰色的,目的是为了区别元数据与组件。

如要更改模式,请单击文本编辑模式旁边的 […] 并选择选项:

  • 更改为内置属性编辑此组件的架构。
  • 更新存储库连接,编辑存储库中的元数据模式。

4)查看模式:单击文本编辑模式旁的 […] 并选择查看模式。

3 创建数据库连接并定义为元数据

1)在 Project Repository 中,单击Metadata,右键单击Db Connections,然后单击Create connection

2)在数据库连接向导的名称字段中,输入MySql并单击下一步。

3)在数据库类型字段中,选择MySQL

4)填写连接参数。

5)点击“检查”查看与数据库的连接。

6)单击完成,关闭向导并创建元数据。

7)要自动检索所有表模式,请右键单击Project Repository 中的MySql 0.1元数据,然后单击Retrieve Schema

8)单击下一步,显示所连接的数据库。

9)查看所有的表和以及视图:选中数据库名称左侧的复选框,然后单击下一步。

此时,所有表模式都已作为元数据进行导入并能够使用。

表和视图显示在项目存储库中的 mysql 0.1 连接下。要查看表格中的字段,请单击表格。

4 使用元数据读取数据库表

1)在列表中读取表格:选择对应表格并将其放置在作业设计器中。

2)在组件窗口中,单击 tMySqlInput 并单击确定。

  • tMysqlInput 组件是使用存储库信息创建的。它使用 MySql 0.1 连接,对于模式而言,它使用的是元数据表 tdq_values 中的存储库信息。
  • 此外,Talend 生成的 SQL 查询会发送到表 tdq_values 中。

3)显示表数据:请添加 tLogRow 组件并将 tdq_values 组件链接到 tLogRow_1 组件。

4)显示表 tdq_values 中的数据:在运行视图中单击运行。


评论区(0)

评论