超算中心配置笔记

Glider 四月 08, 2021

前言

学院新建了一个超算中心,因为配置还不是很完善,所以这里记录一下初始化配置

容器

这里的配置主要是针对自己申请的容器,有root权限的那种

超算配置

增加ssh端口,将22端口映射到外部,以便后面链接

ssh 配置

这里以centos7为例

su      #登入root
passwd  #设置root的密码


yum install openssh-server #安装ssh服务端

vim /etc/ssh/sshd_config  #进入vim编辑ssh配置,打开root登陆,开启密码登陆

sudo service sshd start #重启服务

升级glibc2.18

因为centos7只有2.17,很多软件运行不了

wget http://ftp.gnu.org/gnu/glibc/glibc-2.18.tar.gz  #下载不动用清华源:https://mirrors.tuna.tsinghua.edu.cn/gnu/glibc/glibc-2.18.tar.gz
tar -xvf glibc-2.18.tar.gz 
cd glibc-2.18
mkdir build && cd build && ../configure --prefix=/usr && make -j4 && make install

安装显卡驱动

rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-3.el7.elrepo.noarch.rpm

yum -y install kmod-nvidia

reboot

集群

这里是slrum集群的命令

更多命令可以参考北大的教程: http://hpc.pku.edu.cn/_book/index.html

普通命令

sinfo #查看节点状态
squeue #查看队列
salloc -p gpu -N1 --gres=gpu:4 #选择gpu的一个节点,4块显卡
ssh gpu3 #上条命令结束后会告诉你申请到了哪个节点,例如gpu3

sbatch 任务编写

提交任务命令 sbatch -s work.sh

work.sh文件内容:

#!/bin/bash
#SBATCH -o jupyter_out%j.txt
#SBATCH --partition=gpu
#SBATCH -J bash
#SBATCH --nodes=1                
#SBATCH --ntasks-per-node=6
#SBATCH --gres=gpu:4             
#SBATCH --time=24:00:00

nvidia-smi