面向日常运维(轻量化):服务启停、健康检查、日志清理、账户管理指引位。
slurmctld、slurmdbd、slurmrestd)当前策略:
/home限制20G;CPU 不排队、GPU 排队;内存无硬限。
# OOD Web
sudo systemctl status apache2
sudo systemctl reload apache2
# Slurm
sudo systemctl status slurmctld
sudo systemctl status slurmdbd
sudo systemctl status slurmrestd
# restart:
sudo systemctl restart slurmctld slurmdbd
# Prometheus / Grafana
sudo systemctl status prometheus
sudo systemctl status grafana-server
Slurm:/var/log/slurm/*.log(如 slurmctld.log、slurmdbd.log)
OOD:/var/log/ondemand-nginx/
Web:/var/log/apache2/
用户会话(Nginx per-user):/var/log/ondemand-nginx/<user>/*
Prometheus / Grafana:根据安装路径查看 logs/
/home:共688G,限制20GB。
/workspace:共14T RAID0 无备份,只放可再生/非关键数据。
/data:NFS,共28T 存放大型数据集与模型权重。
通过堡垒机做本地转发:
ssh -N -L 8443:192.168.100.2:443 maintain@222.20.76.74
# 浏览器打开 https://localhost:8443 登录
账户与密码独立管理,不纳入普通用户账户体系。
统一在管理端执行用户创建、组分配、SSH Key 下发等。
平台变更(停机维护/策略调整/数据迁移)提前通过群/公告发布。
平台公告文件夹位置:”/etc/ood/config/announcements.d/”其中的所有未读消息都会推送至平台主页。
文档与 Issues 同步更新关键变更点:存储调整、队列策略、IApp 行为变更等。