EPIC-Slurm-Cluster

Admin Doc(管理员)

面向日常运维(轻量化):服务启停、健康检查、日志清理、账户管理指引位。

1) 组件概览

当前策略: /home 限制20G;CPU 不排队、GPU 排队;内存无硬限。

2) 常用服务与启停(示例)

# OOD Web
sudo systemctl status apache2
sudo systemctl reload apache2

# Slurm
sudo systemctl status slurmctld
sudo systemctl status slurmdbd
sudo systemctl status slurmrestd
# restart:
sudo systemctl restart slurmctld slurmdbd

# Prometheus / Grafana
sudo systemctl status prometheus
sudo systemctl status grafana-server

3) 日志与排障

Slurm:/var/log/slurm/*.log(如 slurmctld.log、slurmdbd.log)

OOD:/var/log/ondemand-nginx/

Web:/var/log/apache2/

用户会话(Nginx per-user):/var/log/ondemand-nginx/<user>/*

Prometheus / Grafana:根据安装路径查看 logs/

4) 存储与配额现状

/home:共688G,限制20GB。

/workspace:共14T RAID0 无备份,只放可再生/非关键数据。

/data:NFS,共28T 存放大型数据集与模型权重。

5) BMC 面板访问

通过堡垒机做本地转发:

ssh -N -L 8443:192.168.100.2:443 maintain@222.20.76.74
# 浏览器打开 https://localhost:8443 登录

账户与密码独立管理,不纳入普通用户账户体系。

6) 账户管理

统一在管理端执行用户创建、组分配、SSH Key 下发等。

用户ID、组ID、统计账户表

《管理员新增用户说明》

7) 变更管理与公告

平台变更(停机维护/策略调整/数据迁移)提前通过群/公告发布。
平台公告文件夹位置:”/etc/ood/config/announcements.d/”其中的所有未读消息都会推送至平台主页。

文档与 Issues 同步更新关键变更点:存储调整、队列策略、IApp 行为变更等。