# 环境规划
# 概述
环境规划主要用于服务的选型和服务器的分配,集群数据的规模来进行阐述, 针对于多个场景进行考虑
# 服务器规划
用于内部开发环境
# 基础服务器规划
| 序号 | 名称 | IP | 服务器配置 | 网络配置 | 备注 |
|---|---|---|---|---|---|
| 1 | 主节点 data-01 | 192.168.1.1 | CPU8 核,32G 内存;存储 2T | 内网上传和下载带宽至少为 1000M;外网传输至少为 5M | |
| 2 | 副节点 data-02 | 192.168.1.2 | CPU8 核,32G 内存;存储 2T | 内网上传和下载带宽至少为 1000M;外网传输至少为 5M | |
| 3 | 副节点 data-03 | 192.168.1.3 | CPU8 核,32G 内存;存储 2T | 内网上传和下载带宽至少为 1000M;外网传输至少为 5M | |
| 4 | 应用服务器 | 192.168.1.4 | CPU8 核,32G 内存;存储 512G | 外网传输至少为 5M |
# 服务器部署规划
以下做为参考,主要考虑多种环境下的搭建参考
| 序号 | 服务名称 | 子服务 | 主节点(01) | 副节点(02) | 副节点(03) | 备注 |
|---|---|---|---|---|---|---|
| 1 | HDFS | NameNode | √ | |||
| 2 | DataNode | √ | √ | √ | ||
| 3 | SecondaryNameNode | √ | ||||
| 4 | Yarn | NodeManager | √ | √ | √ | |
| 3 | Resourcemanager | √ | ||||
| 5 | Zookeeper | Zookeeper Server | √ | √ | √ | |
| 6 | Flume (采集日志) | Flume | √ | √ | ||
| 7 | Kafka | Kafka | √ | √ | √ | |
| 8 | Flume(消费 Kafka) | Flume | √ | |||
| 9 | Hive | Hive | √ | |||
| 10 | MySQL | MySQL | √ | |||
| 11 | Sqoop | Sqoop | √ | |||
| 12 | Presto | Coordinator | √ | |||
| 13 | Worker | √ | √ | |||
| 14 | Azkaban | AzkabanWebServer | √ | |||
| 15 | AzkabanExecutorServer | √ | ||||
| 16 | Druid | Druid | √ | √ | √ | |
| 17 | Kylin | Kylin | √ | |||
| 18 | Hbase | HMaster | √ | |||
| 19 | HRegionServer | √ | √ | √ | ||
| 20 | Superset | √ | ||||
| 21 | Atlas | √ | ||||
| 22 | Solr | jar | √ | |||
| 23 | 服务数总计 | 18 | 9 | 9 |
# 相关问题
# 服务器选型考虑
服务器选择物理机还是云主机
# 物理机
- 以 128G 内存,20 核物理 CPU,40 线程,8THDD 和 2TSSD 硬盘,戴尔品牌单台报价 4W 出差,一般物理机寿命 5 年左右。
- 需专业的运维人员,平均 1 个月 1 万,考虑电费开销
# 云主机
- 云主机:以阿里云为例,差不多相同配置,每年 5W
- 运维工作由阿里云完成,运维相对较轻松
# 企业选择
- 金融团队和阿里没有直接冲突的团队选择阿里云
- 中小团队/为了融资上市,选择阿里云,拉倒融资后买物理机
- 有长期打算,资金比较足,选择物理机
# 集群规模
这里假设每台服务器 8T 磁盘,128G 内存,确认集群规模:
- 每天日活跃用户 100 万,每人一天平均 100 条:100 万*100 条=1 亿条
- 每条日志 1K 左右,每天 1 亿条:100000000/1024/1024 = 约 100G
- 5 年内不扩容服务器考虑:100G _ 365 天 _ 5 年 = 约 180T
- 保存 3 副本:180T*3 = 540T
- 预保留 20% ~ 30% = 540/0.7 = 770T
- 服务器规模:8T * 95 台服务器
- 数据采用压缩算法,压缩到 30%,服务器至少 30 台服务器
考虑数仓分层计算:
- 数据仓库分层
- 数据压缩计算
# 其它
- 略