最近更改 - 搜索:

功能总览?

产品介绍?

安装指南

用户指南

文档下载


FAQ.chm

调度专题.pdf

项目成员管理专题.pdf

数据质量与报告推送配置专题指导.pdf

edit SideBar

任务编辑

任务编辑用于实现自定义数据处理过程,支持拖拽数据资源以及相关处理算子形成处理流程,最终实现数据入库。


1.离线算子处理

拖动流程算子并连线

鼠标移动到资源库下的数据资源或算子库中所需要的算子上,点击鼠标左键拖拽这些算子到右侧流程画布,再点击被拖入的算子图标中心位置的→到下一

个算子节点,当下一个算子周围出现绿色实线框时表示连线成功。例如资源库下的“员工信息”,数据处理算子库中的“数据清洗”和“去重”算子,如下图所示。

当然这里,我们也可以拖入算子库数据接入_数据读取算子到任务画布,通过数据读取算子,去接入数据库中的数据

目前数据读取算子支持的存储类型包含hive、greenplum和oracle三种,如下图所示。

算子属性配置

Step1:

鼠标移到算子图标上,单击该算子,任务画布右侧弹出属性设置界面。算子属性配置完成后,点击任务画布空白处保存该算子属性配置,如下图所示。

因资源库下“员工信息”属于已有数据资源,那么,拖拽该已有数据资源生成的数据读取算子,属性配置仅需配置【数据读取配置】,读取资源选择【全量】

Step2:

数据清洗”算子属性配置界面如下,分为信息转换规则和过滤规则定义配置。属性配置完成后,点击任务画布空白处保存该算子属性配置,如下图所示。

信息转换规则主要包括了选择列、生成列、重命名以及过滤功能。

Step3:

点击【清洗】弹出函数表达式配置弹出框,过滤规则定义支持输入sql语句中where条件和函数过滤两种,如下图所示。

Step4:

点击列转换函数中的【+】,弹出函数表达式编辑弹框,如下图所示。

函数选择支持字符串操作类、数学、日期、逻辑函数等,并支持根据关键字查询函数。

鼠标点击指定函数,右侧函数说明中展示该函数的使用说明,主要包括命令格式、描述、参数说明、返回值、示例五块内容。

Step5:

去重算子由输出信息配置以及去重策略配置两个部分组成。输出信息配置主要展示前置算子列信息;去重策略主要是指当多条重复数据中保留数据策略

点击【多选框】选择输出属性以及设置去重属性列,点击【下拉框】设置排序字段和排序类型,属性配置完成后,点击流程画布空白处保存该算子属性配置,如下图所示。

Step6:

数据分发是将平台任务处理过的数据导出到指定的库表或指定的数据资源。数据分发算子分为基本配置、分区配置和索引配置。

基本配置中存储类别和数据连接支持下拉选择或点击【新建数据连接】新增一个数据存储(具体配置参见 连接管理);数据库名和表名支持下拉选择或手工输入,

目前我们支持的数据分发存储类型包含postgresql、greenplum、oracle、hive、gaussdb,如下图所示。

注意事项

1、中间的算子进行属性设置时需要已连接前置算子,且前置算子已设置好属性并保存。

2、数据清洗算子新增列后,需要手动勾选该列保证新增列正常输出。

3、每个算子名称后的?都会有相应的算子说明。

任务保存

将所有算子的属性设置完毕后,点击【保存】按钮将任务进行保存,如下图所示。

任务运行

Step1:

点击【运行】按钮,任务开始运行,如下图所示。

Step2:

若任务运行成功,则在算子右下角有个绿色的勾,如下图所示。

Step3:

若任务运行失败,则显示红色的×,如下图所示。

任务发布

点击【发布】按钮,任务发布成功,如下图所示。

任务运行日志

Step1:

在当前任务运行页面,点击右上角的【查看日志】,可直接跳转到该任务的日志查看页面,如下图所示。

Step2:

在任务日志查看页面,可点击操作中的【日志】查看任务运行日志详情,如下图所示。

Step3:

也可直接进入任务管理中心页面,点击标签页上的【任务列表】,鼠标移到具体任务上的更多操作点击【查看日志】,自动跳转到运维管理中心-任务日志页面,如下图所示。

Step4:

进入运维管理中心-任务日志页面后,鼠标移到具体任务上,点击【日志】,弹出日志查看弹框,在弹框中可查看任务执行相关日志信息,日志信息支持前后页跳转。

日志查看完成,点击右上角【返回上一个页面】返回到任务管理中心,如下图所示。

任务调试

Step1:

调试模式主要用于调测任务、定位问题用,可以展示中间算子的输出结果。点击【调试】按钮打开调试模式并自动开始执行流程,如下图所示。

Step2:

调试模式,任务运行过程中,可依次点击算子,查看对应的节点数据以及执行时长和数据量,调试完成,再次点击【调试】按钮,退出调试模式,如下图所示。

调度策略配置

系统支持配置任务调度时间周期,支持按分钟、日、周、月配置调度周期调度策略。

Step1:

在任务编辑页面,点击任务画布右侧的【调度策略】打开调度策略配置框,如下图所示。

Step2:

在调度策略配置弹框中,选择自定义调度时间,调度策略配置包含基础配置和高级属性配置。基本配置用于配置调度时间和周期,高级属性用于配置是否强依赖。

例如选择自定义调度时间,并设置在0点-23点59分之前每隔15分钟自动调度执行本任务,并且只有当当前任务上一周期调度执行完成后,当前周期才开始执行,否则

必须等待上一周期执行完,才开始当前周期任务执行。数据依赖支持可配置,包含弱依赖和强依赖。默认为强依赖,即数据源企业员工信息上一周期的数据入库后,

当前任务才开始调度执行如下图所示。

运行结果查看

该离线算子任务最终将处理过的数据分发到了数据资源目录主题库下。

点击左侧导航栏上的【资源中心】,鼠标移到主题库,点击该主题库下的数据表“员工信息主题表”,右侧展示该表详情,如下图所示。

2.实时算子处理

新建实时任务

点击任务列表页面的【新增】,弹出新建任务弹框,任务类型选择【实时算子处理】,输入任务名称,点击【确定】,实时算子任务创建成功,如下图所示。

拖动任务算子并连线

拖动“数据读取”、“数据清理”和“数据分发”算子到右侧流程画布。

在任务画布区,点击被拖入的算子图标中心位置的→到下一个算子节点,当下一个算子周围出现绿色实线框时标识连线成功,如下图所示。

算子属性配置

Step1:

鼠标移到算子图标上,单击该算子,任务画布右侧弹出属性设置界面。

数据读取算子属性配置中数据连接选则kafka连接,topic名称配置为flowDriverFlow,数据读取策略选择latest,读取数据类型选择txt,

并上传对应的数据样例(鼠标移动到上传文件后的?上可查看具体的数据样例)。

算子属性配置完成后,点击流程画布空白处保存该算子属性配置,如下图所示。

Step2:

与离线任务不同,实时任务的数据分发算子仅包括基本配置,其中存储类型支持hive和kafka。

这里以kafka为例,存储类别选择kafka,数据连接选择kafka,输入输出数据的topic名称和数据的格式,如下图所示。

任务保存

将所有算子的属性设置完毕后,点击【保存】按钮进行任务保存,如下图所示。

任务运行

点击【运行】按钮,任务运行成功,则在算子右下角有个绿色的勾,如下图所示。

运行结果查看

任务运行成功后可通过kafka命令去查看结果,如下图所示。

3.SQL处理

SQL处理支持用户实时输入查询语句完成查询分析工作,支持DDL、DML等操作并支持SQL语句辅助功能,同时支持SQL处理结果导出到本地。

Step1:

点击左侧导航栏的【资源中心】进入数据资源中心,点击原始层中的库列表名称,在点击右侧表列表中的【创建SQL处理任务】进入SQL处理页面,如下图所示。

Step2:

SQL处理包括数据资源目录、数据资源预览、SQL编辑区和结果展示区域,如下图所示。

Step3:

选中原始层下的数据表,数据资源预览中会展示该数据表的表结构信息,包括字段名、类型和注释信息。同时,右侧SQL编辑区域也会生成一条该表的基本查询语句,如下图所示。

Step4:

也可根据实际情况自己编写SQL语句。SQL编辑支持常见的SQL语法,且SQL编辑支持智能提示功能,即在SQL编辑区域键入数据资源或库表的前缀,即可提示可能的输入内容。

SQL编辑完成,点击【立即执行】,SQL分析结果会展示在SQL编辑区域下方的表格中,如下图所示。

Step5:

点击【导出】,可将SQL处理结果导出到本地,如下图所示。

返回 任务中心

编辑 - 版本历史 - 打印 - 最近更改 - 搜索
本页面最后修订于:2022年-04月-07日