# 数据抽取上报

# 概述

案例业务系统数据上报服务提供通过导入模板上报数据的入口。业务员从数据上报服务下载导入模板,按照导入模板的格式要求填写数据, 填好数据后在数据服务平台上传文件,执行上报操作,完成数据上报。数据上报服务是大数据开发环节中的重要一环

# 针对人员

  • 数据开发工程师
  • 业务开发人员

# 本内容你将获得

  • 了解部门业务数据的上报流程

# 需求沟通

需求分析工程师与业务部门进行沟通,在充分了解客户的需求后,整理出数据模型,并列出可通过excel导入模板上报数据的清单, 这里主要是采集的数据项:

  • 案件清单
  • 案件处理流程
  • 案件涉及物品表
  • 业务部门表
  • 办理员表

以上的数据采集到数据仓库中。

# 数据抽取

这里列出某1个抽取的脚本

# 配置抽取脚本

这里抽取通过kettle编写成任务脚本,抽取的数据表作业和任务

这里获取到数据抽取的脚本,导出.ktr脚本文件 在kettle工具中,开发从mysql数据库抽取数据导入hive数据仓库的任务

配置说明:

  • 连接mysql数据库,抽取出数据并导出生成数据文件。在读取数据控件中,设置时间变量,通过动态生成的时间变量批量获取业务数据
  • 将数据文件上传到大数据集群服务器
  • 在大数据集群上调用hive命令,将数据文件抽取到hive表

# 数据抽取服务

这里将数据抽取的脚本导出,更新上传到抽取调度服务,如下图:

将ETL任务上传到数据集成服务,由数据集成服务进行统一管理和调度,减少etl任务的部署工作量及难度

# 新增定时策略

进入数据集成服务,导航到服务配置-定时策略,新增定时策略

配置说明:

  • 用户根据业务需求定义定时器的名称
  • 设置定时器的调度表达式,如每隔5秒执行一次:*/5 * * * * ?

# 上传转换任务

进入数据集成服务,导航到任务管理-转换管理,新增转换记录

配置说明:

  • 如果转换任务为单独运行,需要选择调度策略;如果转换任务为作业任务的一部分,则调度策略选择任务暂停,由作业任务进行调用
  • 用户根据需要设置执行方式、日志级别和转换描述

# 上传作业任务

进入数据集成服务,导航到任务管理-作业管理,新增作业记录

配置说明:

  • 选择归属于作业任务的转换任务并选择调度策略
  • 用户根据需要设置执行方式、日志级别和转换描述

# 监控抽取任务

数据集成服务调度ETL任务时,记录ETL任务的执行日志,系统根据执行日志呈现作业、转换的执行日志界面及监控界面

此处数据抽取完成。

# 其它