《空气和水》ITMS 系列 -- AI
AIGC 生成式人工智能
以 ChatGPT 为代表的各种大模型所展现出来的能力自不用说,但限于大模型的原理,AIGC 并不是真的懂了什么,它只是觉得这样回答会获得更高的认可
不过,只要能够找准场景,AIGC 还是帮助颇多
高效文档
不想看文档?没问题,大模型就是干这个的!
Prompt: 我要给一台 H3C 的交换机,1/0/16 口配置 vlan20,请写出具体的配置脚本
ChatGPT:
以下是为 H3C 交换机配置 1/0/16 端口加入 VLAN 20 的具体配置脚本:
1 | system-view |
脚本说明:
system-view
: 进入全局配置模式。interface GigabitEthernet1/0/16
: 进入目标接口配置模式。port link-type access
: 将端口设置为 Access 模式(适合单一 VLAN)。port access vlan 20
: 指定该端口属于 VLAN 20。quit
: 退出接口配置模式。save
: 保存配置,使其在设备重启后生效。
额外说明:
- 如果 VLAN 20 在交换机上还未创建,可在配置前执行以下命令:这样可以确保 VLAN 20 存在于交换机中。
1
2vlan 20
quit
思路打开
遇到问题不知从何下手,让大模型帮你打开思路
但大模型也可能在这种时候,不懂装懂,所以最好再让它提供可验证的方法
Prompt: 公司有一颗 Aruba 的 AP 掉线了,AP 名称是 North-1,型号是 225,可能是什么原因,这些原因怎么验证
ChatGPT
Aruba AP 掉线可能由多种原因引起,以下是一些常见的原因和验证方法:
- 电源问题
- 可能原因:PoE 供电异常或电源适配器故障。
- 验证方法:
- 检查 AP 的 LED 状态指示灯是否正常工作。
- 如果使用 PoE 供电,检查交换机 PoE 端口是否正常供电(可以登录交换机查看端口供电状态)。
- 如果使用电源适配器,尝试更换适配器测试。
- 网络连接问题
- 可能原因:AP 与控制器或交换机之间的网络中断。
- 验证方法:
- 确认 AP 连接的网线是否松动或损坏。
- 使用 ping 命令测试 AP 与控制器之间的连通性。
- 登录交换机检查 AP 端口的状态(使用
show interfaces
查看端口是否 UP)。 - 检查交换机和路由器配置,确认相关 VLAN 和 Trunk 是否配置正确。
- AP 与控制器的配置问题
- 可能原因:控制器没有正确注册该 AP,或 AP 的配置文件损坏。
- 验证方法:
- 登录控制器,检查是否可以看到
North-1
AP 的状态。 - 查看控制器上的日志(例如
show log system
)以确认是否有 AP 掉线的记录。 - 确认 AP 是否绑定到正确的组,并且配置同步。
- 登录控制器,检查是否可以看到
- IP 地址分配问题
- 可能原因:AP 未正确获取 IP 地址。
- 验证方法:
- 登录控制器,检查 AP 的 IP 地址是否正常。
- 登录 DHCP 服务器,查看是否有 IP 分配给 AP。
- 使用控制器或 CLI 访问 AP,确认 AP 的 IP 地址配置(静态或动态)。
- 固件或软件问题
- 可能原因:AP 固件或控制器软件版本不兼容,导致 AP 无法正常运行。
- 验证方法:
- 登录控制器检查固件版本,确认是否与 AP 的型号(225)兼容。
- 检查控制器是否有提示需要升级或降级固件。
- 如果怀疑固件问题,可以重启 AP 或尝试升级固件。
- 物理或环境问题
- 可能原因:AP 的硬件损坏、过热或环境干扰。
- 验证方法:
- 检查 AP 表面是否过热。
- 确认 AP 的安装环境是否有强电磁干扰。
- 尝试更换位置或替换一个相同型号的 AP 测试。
- 认证或许可证问题
- 可能原因:控制器的许可证过期,或者 AP 认证失败。
- 验证方法:
- 登录控制器,检查许可证状态。
- 确认 AP 的序列号是否正确注册。
- 检查控制器上的 AP 许可是否达到上限。
初步排查步骤:
- 观察指示灯:记录 AP 的状态指示灯是否异常。
- 控制器检查:登录控制器查看该 AP 的状态和日志。
- 网络连通性测试:确认 AP 到控制器的网络路径是否正常。
- 重启 AP:如果无法解决,尝试重启 AP,看是否能重新上线。
如果问题仍未解决,可以提供 AP 日志或控制器日志,我们可以进一步分析问题。
日志解读
Prompt 以下为某台 H3C 交换机的日志,请总结一下发生了什么
1 | %Oct 28 13:16:16:895 2024 IDC-12 OPTMOD/4/MODULE_IN: Ten-GigabitEthernet1/0/50: The transceiver is 10G_BASE_SR_SFP. |
ChatGPT
通过分析日志,可以总结以下事件:
光模块插入
- 时间: 2024 年 10 月 28 日 13:16:16
- 日志:
- 光模块插入接口
Ten-GigabitEthernet1/0/50
,类型为10G_BASE_SR_SFP
。 - 随后系统检测到该模块非 H3C 官方销售,提示可能不保证其正常功能或维护责任。
- 光模块插入接口
链路状态变为 UP
- 时间: 2024 年 10 月 28 日 13:20:10
- 日志:
- 接口物理状态变为
up
。 - 链路协议状态变为
up
。 - LLDP 检测到新的邻居设备,邻居的
Chassis ID
和Port ID
均为8cfd-18fd-fee5
。
- 接口物理状态变为
链路异常波动(短暂掉线并恢复)
- 时间: 2024 年 10 月 28 日 13:28:21
- 日志:
- 接口物理状态和链路协议状态短暂变为
down
。 - 约 1 秒后状态恢复为
up
。 - LLDP 重新检测
- 接口物理状态和链路协议状态短暂变为
以上这些场景,还可以通过精心构造 Prompt engineering,把输出变成格式化的,可执行的命令,借由系统自动的到环境中验证,再返回结果,多轮 Prompt,直到发现原因或问题恢复。也算是某种 Agent 吧
时序预测
时间序列算法有很多,我们对如 cpu_usage, mem_usage, if_in, if_out 这些数据的关心点主要有两个,周期性和趋势
阈值细分
园区网的一些时序是有明显周期性的,如出口流量,流量的主要用户是人,人有日常作息。当我们强调周期性,忽略趋势时,就可以得到一个随时间变化的、动态的、上下限阈值。这样的阈值能够发现不寻常的事情,相对固定的一个上限值更有信息量
容量预警
当我们同时考虑周期性和趋势时,就可以做容量预警了。你的磁盘可能将会在 X 天后占满,请及时处理。相比于针对用量的阈值,从剩余天数的维度去做提醒使得问题的处理可以更加从容,甚至防范于未然