《空气和水》ITMS 系列 -- 容量与用量

容量与用量

如果硬件没有故障,配置也没有变更,那遇到的问题大概率会与容量或用量相关

相对于用量,知晓容量从而得其利用的百分比,在实践中更为有用。单纯的用量往往无法直观的评价现状。一台服务器的内存占用了 8G,如何判断占用得多不多,服务器运行得还正不正常,自然是要知晓内存的总大小

实践中,并不是所有容量都像内存这样可以容易的取到,一些只停留在纸面上(说明书、规格文档,虽然可能是 PDF),另一些只能靠人工填一个,甚至估一个

关注容量与用量不仅仅在故障判断上有作用,其与分类系统(如标签)结合,还能发挥管理意义上的统计作用,如

  • 对虚拟机、云主机、服务器、IP 等资源使用情况进行统计,发现闲置资源、低效资源
  • 对资源的分配情况进行统计,多维度考评对资源的利用是否合理

下面总结一些常用的容量

接口流量与带宽

自不必多说,实践中需要注意的有

  • 一些通过 SNMP 取得的带宽不正确,尤其在一些厂商的子接口实现,和他们的公有 MIB 中,需要留意校正
  • 出口带宽的上限,大多时候出口带宽是小于出口设备接口能力的吧,好好的标记上吧

CPU 与内存

这里可以区分一下经典网络设备的 CPU 内存,与经典服务器的 CPU 内存

  • 网络设备的 CPU 内存,可能有很多个,一些的通用的,一些是专用的。所以平均的 CPU 内存意义不大,长时间的 100%占用才需要关注
  • 服务器的 CPU 内存
  • 操作系统中进程的 CPU 内存
  • 虚拟化平台中,主机与虚机的 CPU 内存

IP 与地址池

  • 一个 IPv4 子网的容量
  • 还有可能虽然子网够大,但是在 DHCP 上的 pool,没有配置那么大。这个容量要看 DHCP 系统是否能提供接口了

存储与 IOPS

  • 存储的总容量,各个 LUN 的容量
  • 存储所能提供的总 IOPS,总是一个容易被人忽视的指标,但许多虚拟化平台的卡顿,都源于几台虚机占用了大量的 IOPS

机房与布线

  • 机房的动力,主要是电力。总功率与各 PDU 功率
  • 物理意义上的空间,机柜的 Rack
  • 配线架占用
  • 管井纤芯占用

无线

  • 单 AP 承载终端数
  • 信道容量,这个一般比承载终端数先到达上限,但没有承载终端数那么好评估,一般反映在重传率的上升

其它

  • 网络设备的 MAC 地址转发表,ARP 表,一般不会满,除非网络设计不合理,或者有攻击,网内有主机中病毒
  • DNS 的 QPS,容量要看 DNS 系统能力