Talend 读取CSVFile文件


无论是来自数据库还是文件,数据源都是数据集成中最基本和最必要的元素之一。

Talend Open Studio for Data Integration支持大量数据库连接以及标准复杂文件格式的组件,让您可以轻松访问数据。

在本教程中,您将读取以逗号格式分隔的文件。

本教程中使用的软件版本为Talend Open Studio for Data Integration v6。

1 创建新作业

1)确保选择了集成(Integration)透视图。

2)在Project Repository中,右键单击作业设计器(Job Designs),然后单击菜单中的Create Standard Job(创建标准作业)

3)在New Job向导的Name字段中,将Job的名称重命名为readCSVFile

4)建议您在作业中完善目标字段和描述字段,便于您后续的文件维护。

5)单击完成以创建您的作业。

2 添加一个 tFileInputDelimited 组件

具体步骤请参考Talend Studio实例入门

3 配置 tFileInputDelimited_1 组件

1)在作业设计器中,单击tFileInputDelimited_1

2)单击组件视图中的组件,定义组件的基本设置。

  • 属性类型(Property Type)定义了您将如何读取数据源。
  • 文件名/流(File Name/Stream)显示文件完整的输入或输出路径。您可以手动输入路径。
  • 行分隔符(Row Separators)字段分隔符(Field Separators)定义行分隔符的类型。
  • 限制字段(Limit)显示文件读取的最大行数。
  • 框架(Schema)定义了文件的数据结构。

3)单击文件名(File Name)字段旁边的 […],从本地磁盘中选择文件,选择要读取的文件路径及名称,并打开。

4 定义 tFileInputDelimited_1 组件的架构

1)单击编辑模式(Edit Schema)字段旁边的 […],为 tFileInputDelimited_1 组件定义模式。

  • [+] 按钮表示在模式中添加一列。
  • [x] 按钮表示从模式中删除所选项目。
  • [↑] 和 [↓] 按钮表示在模式中向上或向下移动所选中的项目。

2)在模式向导(Schema Wizard)中,单击[+] 按钮并添加列。

3)在Column列中,字段名称输入为movieID。

4)选择Key,将此字段指定为键。

5)在Type列中,单击整数(Integer)

6)不要选中Nullable列,避免列中出现空值。

7)在Length列中,输入4。

8)对 CSV 文件中的每个字段重复步骤2)到7)。

9)单击确定,关闭模式向导。

5 添加日志组件并传送数据

1)将 tLogRow 组件添加到作业。tLogRow 组件将在控制台中显示它接收到的所有数据行。

2)将数据从 tFileInputDelimited_1 组件传送到 tLogRow_1 组件

在作业设计器中,右键点击tFileInputDelimited_1并拖动到tLogRow_1即可。

talend csv,talend读文件,talend导入csv文件

替代方法

要链接组件,您还可以右键单击源组件,然后单击Row>Main

6 运行作业

单击运行 readCSVFile 的视图。

该文件由 tFileInputDelimited 组件读取,其内容通过 tLogRow 组件显示在控制台上。


评论区(0)

评论