# 数据抽取上报
# 概述
案例业务系统数据上报服务提供通过导入模板上报数据的入口。业务员从数据上报服务下载导入模板,按照导入模板的格式要求填写数据, 填好数据后在数据服务平台上传文件,执行上报操作,完成数据上报。数据上报服务是大数据开发环节中的重要一环
# 针对人员
- 数据开发工程师
- 业务开发人员
# 本内容你将获得
- 了解部门业务数据的上报流程
# 需求沟通
需求分析工程师与业务部门进行沟通,在充分了解客户的需求后,整理出数据模型,并列出可通过excel导入模板上报数据的清单, 这里主要是采集的数据项:
- 案件清单
- 案件处理流程
- 案件涉及物品表
- 业务部门表
- 办理员表
以上的数据采集到数据仓库中。
# 数据抽取
这里列出某1个抽取的脚本
# 配置抽取脚本
这里抽取通过kettle编写成任务脚本,抽取的数据表作业和任务
![]() | ![]() |
这里获取到数据抽取的脚本,导出.ktr脚本文件
在kettle工具中,开发从mysql数据库抽取数据导入hive数据仓库的任务
配置说明:
- 连接mysql数据库,抽取出数据并导出生成数据文件。在读取数据控件中,设置时间变量,通过动态生成的时间变量批量获取业务数据
- 将数据文件上传到大数据集群服务器
- 在大数据集群上调用hive命令,将数据文件抽取到hive表
# 数据抽取服务
这里将数据抽取的脚本导出,更新上传到抽取调度服务,如下图:
将ETL任务上传到数据集成服务,由数据集成服务进行统一管理和调度,减少etl任务的部署工作量及难度
# 新增定时策略
进入数据集成服务,导航到服务配置-定时策略,新增定时策略
配置说明:
- 用户根据业务需求定义定时器的名称
- 设置定时器的调度表达式,如每隔5秒执行一次:
*/5 * * * * ?
# 上传转换任务
进入数据集成服务,导航到任务管理-转换管理,新增转换记录
配置说明:
- 如果转换任务为单独运行,需要选择调度策略;如果转换任务为作业任务的一部分,则调度策略选择任务暂停,由作业任务进行调用
- 用户根据需要设置执行方式、日志级别和转换描述
# 上传作业任务
进入数据集成服务,导航到任务管理-作业管理,新增作业记录
配置说明:
- 选择归属于作业任务的转换任务并选择调度策略
- 用户根据需要设置执行方式、日志级别和转换描述
# 监控抽取任务
数据集成服务调度ETL任务时,记录ETL任务的执行日志,系统根据执行日志呈现作业、转换的执行日志界面及监控界面
此处数据抽取完成。
# 其它
- 无

