# 环境规划

# 概述

环境规划主要用于服务的选型和服务器的分配,集群数据的规模来进行阐述, 针对于多个场景进行考虑

# 服务器规划

用于内部开发环境

# 基础服务器规划

序号 名称 IP 服务器配置 网络配置 备注
1 主节点 data-01 192.168.1.1 CPU8 核,32G 内存;存储 2T 内网上传和下载带宽至少为 1000M;外网传输至少为 5M
2 副节点 data-02 192.168.1.2 CPU8 核,32G 内存;存储 2T 内网上传和下载带宽至少为 1000M;外网传输至少为 5M
3 副节点 data-03 192.168.1.3 CPU8 核,32G 内存;存储 2T 内网上传和下载带宽至少为 1000M;外网传输至少为 5M
4 应用服务器 192.168.1.4 CPU8 核,32G 内存;存储 512G 外网传输至少为 5M

# 服务器部署规划

以下做为参考,主要考虑多种环境下的搭建参考

序号 服务名称 子服务 主节点(01) 副节点(02) 副节点(03) 备注
1 HDFS NameNode
2 DataNode
3 SecondaryNameNode
4 Yarn NodeManager
3 Resourcemanager
5 Zookeeper Zookeeper Server
6 Flume (采集日志) Flume
7 Kafka Kafka
8 Flume(消费 Kafka) Flume
9 Hive Hive
10 MySQL MySQL
11 Sqoop Sqoop
12 Presto Coordinator
13 Worker
14 Azkaban AzkabanWebServer
15 AzkabanExecutorServer
16 Druid Druid
17 Kylin Kylin
18 Hbase HMaster
19 HRegionServer
20 Superset
21 Atlas
22 Solr jar
23 服务数总计 18 9 9

# 相关问题

# 服务器选型考虑

服务器选择物理机还是云主机

# 物理机

  • 以 128G 内存,20 核物理 CPU,40 线程,8THDD 和 2TSSD 硬盘,戴尔品牌单台报价 4W 出差,一般物理机寿命 5 年左右。
  • 需专业的运维人员,平均 1 个月 1 万,考虑电费开销

# 云主机

  • 云主机:以阿里云为例,差不多相同配置,每年 5W
  • 运维工作由阿里云完成,运维相对较轻松

# 企业选择

  • 金融团队和阿里没有直接冲突的团队选择阿里云
  • 中小团队/为了融资上市,选择阿里云,拉倒融资后买物理机
  • 有长期打算,资金比较足,选择物理机

# 集群规模

这里假设每台服务器 8T 磁盘,128G 内存,确认集群规模:

  • 每天日活跃用户 100 万,每人一天平均 100 条:100 万*100 条=1 亿条
  • 每条日志 1K 左右,每天 1 亿条:100000000/1024/1024 = 约 100G
  • 5 年内不扩容服务器考虑:100G _ 365 天 _ 5 年 = 约 180T
  • 保存 3 副本:180T*3 = 540T
  • 预保留 20% ~ 30% = 540/0.7 = 770T
  • 服务器规模:8T * 95 台服务器
  • 数据采用压缩算法,压缩到 30%,服务器至少 30 台服务器

考虑数仓分层计算:

  • 数据仓库分层
  • 数据压缩计算

# 其它