运行监控

实时监控系统和模型运行状态

系统状态
正常运行
CPU 负载
78%
内存使用
65%
告警数量
3

CPU使用率

100%
75%
50%
25%
0%
14:00
14:30
15:00
15:30
16:00

内存使用情况

100%
75%
50%
25%
0%
14:00
14:30
15:00
15:30
16:00

GPU使用情况

GPU-01 (RTX 4090)
92%
温度: 78°C 显存: 22.8/24 GB 功率: 320W
GPU-02 (RTX 4090)
95%
温度: 83°C 显存: 23.5/24 GB 功率: 350W
GPU-03 (RTX 4090)
88%
温度: 76°C 显存: 21.2/24 GB 功率: 310W
GPU-04 (RTX 4090)
85%
温度: 75°C 显存: 20.4/24 GB 功率: 305W

网络与存储

网络流量

入站: 180 Mbps
出站: 120 Mbps

存储使用

主存储 (SSD) 1.2TB / 2TB
备份存储 (HDD) 4.5TB / 8TB
模型存储 (SSD) 3.8TB / 4TB

系统告警

时间 级别 来源 告警信息 状态 操作
2023-09-14 15:23 严重 GPU-02 温度过高告警 (83°C) 待处理
2023-09-14 14:52 警告 模型存储 存储空间不足 (95%) 待处理
2023-09-14 13:18 严重 任务调度器 模型性能测试任务失败 待处理