超算中心配置笔记
Glider 四月 08, 2021前言
学院新建了一个超算中心,因为配置还不是很完善,所以这里记录一下初始化配置
容器
这里的配置主要是针对自己申请的容器,有root权限的那种
超算配置
增加ssh端口,将22端口映射到外部,以便后面链接
ssh 配置
这里以centos7为例
su #登入root
passwd #设置root的密码
yum install openssh-server #安装ssh服务端
vim /etc/ssh/sshd_config #进入vim编辑ssh配置,打开root登陆,开启密码登陆
sudo service sshd start #重启服务
升级glibc2.18
因为centos7只有2.17,很多软件运行不了
wget http://ftp.gnu.org/gnu/glibc/glibc-2.18.tar.gz #下载不动用清华源:https://mirrors.tuna.tsinghua.edu.cn/gnu/glibc/glibc-2.18.tar.gz
tar -xvf glibc-2.18.tar.gz
cd glibc-2.18
mkdir build && cd build && ../configure --prefix=/usr && make -j4 && make install
安装显卡驱动
rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-3.el7.elrepo.noarch.rpm
yum -y install kmod-nvidia
reboot
集群
这里是slrum集群的命令
更多命令可以参考北大的教程: http://hpc.pku.edu.cn/_book/index.html
普通命令
sinfo #查看节点状态
squeue #查看队列
salloc -p gpu -N1 --gres=gpu:4 #选择gpu的一个节点,4块显卡
ssh gpu3 #上条命令结束后会告诉你申请到了哪个节点,例如gpu3
sbatch 任务编写
提交任务命令 sbatch -s work.sh
work.sh文件内容:
#!/bin/bash
#SBATCH -o jupyter_out%j.txt
#SBATCH --partition=gpu
#SBATCH -J bash
#SBATCH --nodes=1
#SBATCH --ntasks-per-node=6
#SBATCH --gres=gpu:4
#SBATCH --time=24:00:00
nvidia-smi