# 数据采集示例
# 概述
项目需要从数据库、文件、网页等多种数据源中采集原始数据,经过计算加工,生成有价值的数据
# 本内容你将获得
- 数据采集平台如何从mysql数据库
- 数据采集平台定时采集数据到hive数据仓库
# 采集过程
# 开发采集任务
在kettle开发工具中,新增作业及转换任务
说明:
- 连接mysql数据库,读取出数据并导出生成数据文件。读取数据控件中,设置时间变量,运行时通过时间条件获取业务数据
- 将数据文件上传到数据采集服务,数据采集服务定时调度,完成数据抽取
- 数据采集服务调用hive命令,将数据文件抽取到hive表,过程由采集监控和任务调度
# 调度采集任务
将作业及转换任务上传到数据集成服务 设置作业的定时调度策略
# 监控采集任务
数据集成服务定时运行作业任务,将数据从mysql数据库采集到hive数据库
# 其它
- 无