# 数据采集示例

# 概述

项目需要从数据库、文件、网页等多种数据源中采集原始数据,经过计算加工,生成有价值的数据

# 本内容你将获得

  • 数据采集平台如何从mysql数据库
  • 数据采集平台定时采集数据到hive数据仓库

# 采集过程

# 开发采集任务

在kettle开发工具中,新增作业及转换任务

说明:

  • 连接mysql数据库,读取出数据并导出生成数据文件。读取数据控件中,设置时间变量,运行时通过时间条件获取业务数据
  • 将数据文件上传到数据采集服务,数据采集服务定时调度,完成数据抽取
  • 数据采集服务调用hive命令,将数据文件抽取到hive表,过程由采集监控和任务调度

# 调度采集任务

将作业及转换任务上传到数据集成服务 设置作业的定时调度策略

# 监控采集任务

数据集成服务定时运行作业任务,将数据从mysql数据库采集到hive数据库

# 其它