《空气和水》ITMS 系列 -- 容量与用量
容量与用量
如果硬件没有故障,配置也没有变更,那遇到的问题大概率会与容量或用量相关
相对于用量,知晓容量从而得其利用的百分比,在实践中更为有用。单纯的用量往往无法直观的评价现状。一台服务器的内存占用了 8G,如何判断占用得多不多,服务器运行得还正不正常,自然是要知晓内存的总大小
实践中,并不是所有容量都像内存这样可以容易的取到,一些只停留在纸面上(说明书、规格文档,虽然可能是 PDF),另一些只能靠人工填一个,甚至估一个
关注容量与用量不仅仅在故障判断上有作用,其与分类系统(如标签)结合,还能发挥管理意义上的统计作用,如
- 对虚拟机、云主机、服务器、IP 等资源使用情况进行统计,发现闲置资源、低效资源
- 对资源的分配情况进行统计,多维度考评对资源的利用是否合理
下面总结一些常用的容量
接口流量与带宽
自不必多说,实践中需要注意的有
- 一些通过 SNMP 取得的带宽不正确,尤其在一些厂商的子接口实现,和他们的公有 MIB 中,需要留意校正
- 出口带宽的上限,大多时候出口带宽是小于出口设备接口能力的吧,好好的标记上吧
CPU 与内存
这里可以区分一下经典网络设备的 CPU 内存,与经典服务器的 CPU 内存
- 网络设备的 CPU 内存,可能有很多个,一些的通用的,一些是专用的。所以平均的 CPU 内存意义不大,长时间的 100%占用才需要关注
- 服务器的 CPU 内存
- 操作系统中进程的 CPU 内存
- 虚拟化平台中,主机与虚机的 CPU 内存
IP 与地址池
- 一个 IPv4 子网的容量
- 还有可能虽然子网够大,但是在 DHCP 上的 pool,没有配置那么大。这个容量要看 DHCP 系统是否能提供接口了
存储与 IOPS
- 存储的总容量,各个 LUN 的容量
- 存储所能提供的总 IOPS,总是一个容易被人忽视的指标,但许多虚拟化平台的卡顿,都源于几台虚机占用了大量的 IOPS
机房与布线
- 机房的动力,主要是电力。总功率与各 PDU 功率
- 物理意义上的空间,机柜的 Rack
- 配线架占用
- 管井纤芯占用
无线
- 单 AP 承载终端数
- 信道容量,这个一般比承载终端数先到达上限,但没有承载终端数那么好评估,一般反映在重传率的上升
其它
- 网络设备的 MAC 地址转发表,ARP 表,一般不会满,除非网络设计不合理,或者有攻击,网内有主机中病毒
- DNS 的 QPS,容量要看 DNS 系统能力