高性能集群用户使用手册成都中医药大学.docx

上传人:奥沙丽水 文档编号:142852 上传时间:2025-07-11 格式:DOCX 页数:26 大小:167.09KB
下载 相关 举报
高性能集群用户使用手册成都中医药大学.docx_第1页
第1页 / 共26页
高性能集群用户使用手册成都中医药大学.docx_第2页
第2页 / 共26页
高性能集群用户使用手册成都中医药大学.docx_第3页
第3页 / 共26页
高性能集群用户使用手册成都中医药大学.docx_第4页
第4页 / 共26页
高性能集群用户使用手册成都中医药大学.docx_第5页
第5页 / 共26页
点击查看更多>>
资源描述

1、高性能集群用户使用手册成都中医药大学2021年3月-s shell指明执行运行脚本所用的shell,须包含全路径。-u userjist定义作业将在运行结点上以哪个用户名来运行。-v variablejist定义export到本作业的环境变量的扩展列表。-V表明qsub命令的所有环境变量都export到此作业。-W additional_attributes 作业的其它属性运行脚本同Linux下一般的运行脚本文件注:脚本文件中的mpirun命令行中的节点列表文件要用环境变量表示。$PBS_NODEFILE,这个环境变量表示由PBS自动分配给作业的节点列表;节点数为命令行中拴定的进程数。命令格式

2、mpirun-np 进程数 -hostfile $PBS_NODEFILE 可执行程序名2.6 PBS环境下运行示例(1)脚本文件编辑示例实例1 :运行mpi程序命令行:#vi aaa.pbs编辑的内容:#PBS -N myjob#PBS -o /home/test/my.out#PBS -e /home/test/my.err#PBS -I nodes=2:ppn=2cd $PBS_O_WORKDIR (进入工作目录,即脚本所在的目录)mpirun -np 4 -hostfile $PBS_NODEFILE /home/test/helloworld解释:原来我们都是在终端输入mpirun

3、这些命令执行程序的,现在只要把这些提交命令放在.pbs配置文件的最后,由PBS来调度执行(自动分配节点和其它资源)。myjob是为要运行的程序起的任务名,可以改成你自己想要的名字。原先输出信息都是直接在屏幕上显示的,现在屏幕上的显示全部输出到文件中。上例中输出文件是/home/test/my.out文件,可以根据自己的需要修改(目录,文件名)。程序运行时遇到的一些错误会记录在.er文件中。这样的好处是,因为对每个任务都设定了不同的输出文件,所以看结果只要打开相应文件看就可以了,不需要开多个终端,而且里面有任务的详细信息,比如实际分配的是哪些节点计算,运行时间等。pbs-I nodes二2:pp

4、n二2规定使用的节点数,以及每个节点能跑多少核。mpirun -np 4 -hostfile $PBS_NODEFILE /home/test/helloworld此例中-np后的4是并行数(2x2 = 4个cpu), -hostfile $PBS_NODEFILE不需要改变。/home/test/helloworld是你编译好的可执行文件名,需修改。对于每个你要运行的mpi程序都需要这样一个.pbs配置文件,也就是说原来的操作是:mpirun,现在改成2步走:1)写个PBS配置文件(比如xxx.pbs);2)向 PBS 提交(qsub xxx.pbs)实例2:运行非mpi程序有些用户并不是m

5、pi程序,同样也可以用PBS提交。命令行:#vi job. pbs编辑的内容:#PBS -N myjob#PBS -o /home/test/my. out#PBS -e /home/test/my. err#PBS -q队列名称#PBS -1 nodes=l:ppn=2#PBS -r ycd $PBS_0_W0RKDIR (原来直接在节点上运行时所在的目录)sh helloword解释:把原来在终端直接输入的命令放到PBS配置文件中,因为只要一个节点,所以nodes。至于用哪个节点系统自动分配,可以用qstat命令查询(比如qstat -n)。(2)提交作业示例命令行:甘qsub aaa.

6、pbs(3)作业状态查询示例qstat后加不同参数可以查看不同的信息,查看作业的状态。命令行:#qstat a解释:Job id 211是给提交的任务分配的任务号,S (状态:R代表运行,Q代表 排队,E代表正在退出,H代表挂起,C代表运行完毕)命令行:#qstat -n 查看作业使用的节点命令行:#qstat jobidl jobid2 .查看指定作业号的作业(可一次查看多个作业)命令行:ttqstat userl查看指定用户的作业解释:该方式输出和默认略有不同,但大同小异。命令行:ttqstat -f jobid 查看特定作业详细信息解释:该命令将会输出作业号为jobid的作业的详细信息。

7、3命令行作业PBS脚本3.1 Intel-mpiintelmpi.pbs注意事项,intel/2018与intel/2020运行参数不同intel2018: mpirun -rdmaintel2020: mpirun -genv I_MPI_FABRICS shm:ofi -genv FI_PROVIDER mix#PBS -N job_vasp#PBS -1 nodes=2:ppn=2#PBS -1 walltime=1200:00:00#PBS -q batch#PBS -V#PBS -S /bin/bashmodule load intel/2018ttmodule load intel

8、/2020EXEC=xxxcd $PBS 0 WORKDIRNP二cat $PBS_NODEFILE | wc -fNN二cat $PBS_NODEFILE | sort | uniq | tee /tmp/nodes. $ | wc 1cat $PBS_NODEFILE /tmp/nodefile. $#intel/2018mpirun -rdma -machinefile /tmp/nodefile. $ -n $NP $EXEC log. $#intel/2020ttmpirun -genv I_MPI.FABRICS shm:ofi -genv FI_PR0VIDER mix -mac

9、hinefile /tmp/nodefile. $ -n$NP $EXEC log.$rm -rf /tmp/nodefile. $rm -rf /tmp/nodes. $3.2 Ansysansys.pbs#!/bin/bash#PBS N job_ansys201#PBS -1 nodes=2:ppn=2#PBS -q partimodule load ansys/2020rlinput=thermal. txtexport MPI_WORKDIR=$PBS_O_WORKDIRexport MPI REMSH=sshexport MPI IC ORDER=IBV:TCPexport MPI

10、RUN_OPTIONS=n-protncd $PBS_O_WORKDIRcat $PBS_NODEFILE ansys. hostsed i s/Wib/g ansys. hostmachines 二 uniq-c ansys. host | awk r BEGIN H= if (H=) H=$2:$l elseH=H”:$2”:n$l END print Hansys201 -b -s 一dis -machines $machines -i thermal, txt o log. $rm -rf ansys. host3.3 Fluentfluent.pbs#!/bin/sh -f#PBS

11、N job_fluent#PBS -q parti#PBS -1 nodes=2:ppn=2module load intel/2018module load ansys/2020rlinput=eddy_417k. jounprocs=wc -1 log. $daterm -rf cleanup-fluent*3.4 CFXcfx. pbs#!/bin/sh -f#PBS -N job_cfx#PBS -q parti#PBS -1 nodes=2:ppn=2module load ansys/2020rlmodule load intel/2018input=740_test. defc

12、d $PBS 0 WORKDIRexport MPIRUN 0PTI0NS=-protexport CFX5RSII二sshexport MPI_IC_ORDER=IBV:TCPexport I_MPI_DEVICE=rdssmmachine=uniq -c $PBS NODEFILE | awk 1 BEGINif (H=”) H=$2”*”$1 else( H=H,$2”*”$1 ) END print Hecho par-dist = $PAR_MACHcfx5solve - def $input -double -start-method Intel MP I Distributed

13、Parallel,r -pardist$machine |tee log.$3.5 Vaspvasp. pbs#PBS -N job vasp#PBS -1 nodes=2:ppn=2#PBS -1 walltime=1200:00:00#PBS -q parti#PBS -V#PBS -S /bin/bashmodule load intel/2018module load vasp/5. 4.4intel2018cd $PBS_O_WORKDIRNP=cat $PBS_NODEFILE | wc -fNN二 cat $PBS_NODEFILE | sort | uniq | tee /tm

14、p/nodes. $ | wc -1cat $PBS_NODEFILE /tmp/nodefile. $mpirun -rdma -machinefile /tmp/nodefile. $ n $NP vasp_std log. $rm -rf /tmp/nodefile. $3.6 Lammpslammps. pbs#PBS -N joblammps#PBS -q batch#PBS -1 nodes=2:ppn=2#PBS -S /bin/bash#PBS -Vmodule load intel/2018module load lammps/7Augl9-intel2018input=Pd

15、P. incd $PBS_O_WORKDIRNP=cat $PBS_NODEFILE | wc -NN=cat $PBS_NODEFILE | sort | uniq | tee /tmp/nodes. $ | wc -1cat $PBS_NODEFILE /tmp/nodefile. $mpirun -rdma -machinefile /tmp/nodefile. $ n $NP lmp_intel_cpu_intelmpi /tmp/nodefile. $./makeMeshdecomposeParmpirun -rdma np $NP -machinefile /tmp/nodefil

16、e. $ pimpleFoam -parallel log.$rm -rf /tmp/nodefile. $3.8 Gaussian-g09g09. pbs#!/bin/sh#PBS -N job_g09#PBS -1 nodes=l:ppn=4#PBS -1 walltime=999:00:00#PBS -q batch#PBS -Vmodule load gaussian/g09input=test0001. comcd $PBS_O_WORKDIRg09 $input.log3.9 Gaussian-gl6gl6.pbs#PBS -N job_gauss#PBS -I nodes=2:p

17、pn=2#PBS -I walltime=12:00:00#PBS -q batch#PBS -V#PBS -S /bin/bashmodule load gaussian/gl6cd $PBS_O_WORKDIRinput=if ! -e$FILENAMEthenecho $FILENAME does not exist,gl6 can not runexit 1fiLINE=cat $PBS_NODEFILE | sort | uniq | tee nodelist,$ | wc -Ii=lstring=,%lindaworker=while $i -le$LINEdonode=sed -

18、n $i p nodelist.$if $i -eq $LINE ; thenstring=$string$nodeelsestring=$string$noden,filet i+=ldonestring2=,%mem=$MEMstring3=%nprocshared=$NprocSharedrm -f nodelist.$gl6 $input.log3.10Anacondaconda.pbs#PBS -N jobjorch#PBS -I nodes=l:ppn=4#PBS -I walltime二 1200:00:00#PBS -q batch#PBS -V#PBS -S /bin/bas

19、hmodule load anaconda/3source activate pytorch-1.4.0cd $PBS_O_WORKDIRpython demo.py demo.log4 Web浏览器端作业管理登录地址::8080如果遇到安全警告,选择高级-添加例外4.1集群监控通过web端可查集群状态,资源使用情况,如下所示整体监控21:50 21:51 21:52 21:52 21:53 21 54 21:55 21:56 21:57 21:58 21:59运行C刷新18,000,00015,000,00012,000,0009.000.0006,000,0003,000,000021:5

20、0 21:51 21:52 21:52 21:53 21:54 21:55 21:56 21:57 21:58 21:S9 transmit rate receive满获:0 郎分:0 空同:69 关物:0节点名cuOlcu02cu03cu04CU05cu06cuO7cu08cu09culO状态FREEFREEFREEFREEFREEFREEFREEFREEFREEFREE0 cpu(%)内存(MB)网场(MB/S)0员就核敷作业列表4052/1919132121A919132082/1919132089/1919132089/1919132076/191913207S/1919132138/

21、1919132123/1919132077/1919130.00.00.00.00.00.00.00.00.00.00/480/480/480/480/480/480/480/480/480/484.2作业提交以下以ansys模块为例选择作业管理-作业提交-选择要提交的作业模块(ansys)左侧根据提示进行对应的项目的输入,确认无误后提交即可C刷新提交作业X1、选择ansy喂块STARCCMnumacaNastranLS-DYNAfootrootrootfoot作业名酢:队列选拜:工作目录:资源选拜:节点散敬:input-file :output-file-name :job.ansysbat

22、chtest outComsolroof9、确认设置无误,提交任务2、自定义作业名称3、选择队列4、选择工作目录,输入文件所在目录5、选择资源类型,cpu即可6、选择节点及核心数7、选择输入文件8白定V蝙出文件名称ChemistiyLAMMPS如gromacsm2!abinitCP2KSIESTAnvchemCQQ1皿1MaterialSdencevaspnamd2amberGaussian09rootrootrootroot提交成功有以下提示成功56.mu01OK通过作业查看,可以看到作业运行状态,如下R表示正常运行Search操作:=E Itid良除 刷新 皆停 VNC 作业ID作业名称用

23、户使用时间状态队列ttft节点数远行节5U 56job.ansystestQbatch124cu61 cu64 cu3 cu62在作业查看左侧操作栏中,可查看作业信息、日志输出、资源利用监控cu61 ,cu64,cu63x:u622,5002,0001,5001.00021:58:0421:59:0022:00:5222:01:4822:02:4422:03:4022:04:36平均负计22:06:2822:07:240一一21:58:0421:59:0022:06:2822:07:24cpu.us性顺计(%)22:00:5222:01:4822:02:4422:03:4022:04:36内g

24、用怪蜒计(MB)0022:07:2421:58:0421:59:0022:01:4822:02:4422:03:4022:04:36关闭4.3文件下载作业完成后如果要下载输出文件,在完成作业栏中,可点击作业ID进行排序,点击打开目录,目录1 集群概述31.1 集群登录地址31.2 集群计算资源31.3 集群队列划分31.4 系统及软件32 集群作业管理系统42.1 应用软件环境管理42.2 PBS查看节点信息及状态52.3 PBS命令介绍62.4 PBS环境变量82.5 PBS脚本文件92.6 PBS环境下运行示例103 命令行作业PBS脚本123.1 Intel-mpi123.2 Ansys

25、133.3 Fluent133.4 CFX143.5 Vasp143.6 Lammps153.7 OpenFOAM153.8 Gaussian-g09163.9 Gaussian-gl6163.10 Anaconda174 Web浏览器端作业管理174.1 集群监控174.2 作业提交184.3 文件下载194.4 文件管理20C刷*完成作业X。一周 一月 一年作业ID,业名称用户用户蛆叭列运行节点w工作目录、操作56job.ansystesttestbatchcu64/0-24Cu63/0-2+cu62/0-2+cu.2020-11-24 22:09:57ZhomeAest/ansys/ex

26、ampte打开目录55jobjorchtesttestbatchgpu03/0-32020-11-24 21:42:28/homeAest/gpu打开目录54jobjorchtesttestbatchgpu01/0-32020-11-24 21 42:14/home/test/gpu打开目承53jobjorchtesttestbatchgpuO2/O-32020-11-24 21:42:16/home/tesvgpu打开目承52jobjorchtesttestbatchgpu03/8-11202011-24 21 41:49/home/test/gpu打开目录51jobjorchtesttes

27、tbatchgpti03/4-72020-11-24 21 41:49/home/test/gpu打开目攻50jobjorchtesttestbatchgpu03/0-32020-11-24 21141:40/home/test/gpu打开目承选择要操作的文件,点击右键进行相应的操作4.4文件管理在管理工具中选择文件管理,即可进入家目录,选择文件进行相应操作,或空白处点击右键进行文件上传等操作卫gnusersansys文件名p葡体中文当前目承:/tiome/test文件类型大小(字节)修改时间国作业ii理fluentgl6gpulammpsopenfoamansys文件央文件央40964096

28、11-24 2232二 fluent文件央4096r牯站11-2416:18g09文件央4096Q新建文件菱新建日最11-24161111-2417:15义件管理per15pytorchtensorflowvaspwien2kgi6文件哭文件央40964096lammps文件央4096openfoam文件央4096 VSWIEN2kperl5文件央4096 pytocch文件央4096_ tensorftow文件央4096vasp文件央4096wlen2k文件央4096WIEN2k文件央4096O刷新t上传11-2418:1511-24 21:4011-2416:3311-2416:4411-

29、21 22:0311-24 21:3111-24 21:2311-2416:2511-2419:4911-2419:381集群概述高性能集群(High performance cluster,HPC),它是利用一个集群中的多台机器共同完成同一件任务,使得完成任务的速度和可靠性都远远高于单机运行的效果。1.1集群登录地址当前集群开放ssh登录及web端登录 ssh登录:IP1 : 10.200.143.253 端口 : 2223 Web控制台登录:22251.2集群计算资源集群计算资源主要包括,cpu计算节点64台,胖计算节点2台,gpu计算节点3台,主要配置信息如下:序号节点类型节点数量节点名

30、称内存大小(单个节点)CPU核心数(单个节点)1计算节点22cu01-cu22192G482胖节点1fatOl768G804其他信息cpu 计算节点 cpu 型号:Intel(R) Xeon(R) Gold 6240R CPU 2.40GHzsmp 胖节点 cpu 型号:Intel(R) Xeon(R) Gold 6248 CPU 2.5GHz1.3集群队列划分序号队列名称包含资源说明1batchcu01-cu22, fatOl所有计算节点1.4系统及软件集群节点操作系统版本centos7.5集群中全局共享存储/public和/home其中/public目录提供管理员用户统一安装软件,普通用户

31、无写入权限,只可进行读取。其中/home目录为用户家目录,用户登录后即在该目录下在集群中软件必须均按照到共享目录下,因此不可使用yum安装软件,普通用户安装软件源码编译安装到自己用户目录下即可在系统预安装部分基础编译环境及应用软件如下表所示序号软件名称软件版本安装目录1anaconda3/public/software/anaconda32intel-mpi2018/public/software/intel20183intel-mpi2020/public/software/intel20204gcc9.2.0/publi c/softwa re/g cc/g cc-9.2.0/2集群作业管

32、理系统集群作业调度管理系统,采用pbs进行资源调度及任务下发,基础应用软件环境使用module进行管理。2.1应用软件环境管理通常情况下,我们在linux上安装软件后,需要使用export来添加PATH和LD_LIBRARY_PATH路径来使软件生效。在高性能集群中,为了方便各类软件的环境变了管理,使用module来统一管理,module的使用非常的简单,如下面介绍。查看所有可用软件module availtest0muOl $ module avail /software/modulefiles/application anaconda/3 gaussian/g09 lamnips/7Aug

33、l9-intel2018 openfoam/7 vasp/5.4.4-xntel2018 wien2k/19.1ansys/2020rl gaussian/gl6 matlab/R2019b python/3.9.0 vmd/1.9.3 /software/moduleflies/compiler gcc/9.2.0 intel/2018 intel/2020 mpich/3.3.2-gcc-4.8.5 opemnpx/4.0.3-gcc-4.8.5 openmpi/4.0.3-ntel2018/software/modulefiles/mathlibf ftw/3.3 8-mtel2018

34、hdf5/l. 10.5-mtel2018/software/moduleflies/toolcmake/3.15.3 cmake/3.19.0 iozone/3_490,广 q QL QrrE 1 :-】-_H 加载和卸载软件module load/unloadmodule purge清除所有加载软件 列出已经加载软件module listtestmu01 module load intel/2018testmu01 * $ module load vasp/5.4.4-intel2018test0muOl S module listCurrently Loaded Modulefiles:

35、1) intel/2018 2) vasp/5.4.4-intel2018testmu01 . 查看环境配置,即modulefile文件module showtestQmuOl * $ module show vasp/5.4.4-intel2018/software/modulefiles/application/vasp/5 4.4-intel2018:prereqintelprepend-pathPATH /software/application/vasp/vasp-5 4 4-intel2018/F testniu01以上module的相关操作用户可加入.bashrc文件中,实现默认

36、配置,而无需每次登录都执行2.2 PBS查看节点信息及状态命令格式:pestat或pbsnodestestSmuOl Spestat0.007724767280447657920/00snqpOlfreesmp02free0.007724767280447657900/00gpuOlfree0.153854214841742137550/00gpu02free0.033854214841742137510/00gpu03free0.013854214841742137700/00cuOlfree0.001919124822391240560/00cu02free0.00191912482239

37、1221190/00cu03free0.001919124822391220820/00cu04free0.001919124822391220900/00cu05free0.001919124822391220910/00cu06free0.001919124822391220750/00cu07free0.001919124822391220750/00cu08free0.001919124822391221400/00cu09free0.001919124822391221230/00culOfree0.001919124822391220770/00cullfree0.19191912

38、4822391220730/00cu!2free0.001919124822391220720/00cul3free0.001919124822391220720/00cu!4free0.001919124822391220710/00cu!5free0.001919124822391220760/00cul6free0.001919124822391221300/00cu!7free0.001919124822391221130/00cul8free0.121919124822391220690/00cu!9free0.001919124822391220790/00cu20free0.00

39、1919124822391220870/002.3 PBS命令介绍PBS提供4条命令用于作业管理。(1)qsub用于提交作业脚本命令格式:qsub script(2)qstat 用于查询作业状态信息命令格式:qstat -f-a-i-n-s-R-Q-q-B-u参数说明:-f jobid列出拴定作业的信息-a列出系统所有作业-i列出不在运行的作业-n 列出分配给此作业的结点-s列出队列管理员不scheduler所提供的建议-R 列出磁盘预留信息-Q 操作符是destination id, g明请求的是队列状态-q列出队列状态,并以alternative形式显示-au userid列出拴定用户的所有作业-B 列出PBS Server信息-r列出所有正在运行的作业-Qf queue列出拴定队列的信息-U若操作符为作业号,则列出其状态。若操作符为destination id,则列出运行在其上的属于userjist中用户的作业状态。常用命令示例:a)查看空闲节点信息(提交作业前需要查看一下各队列节点空闲状况)testmu01 $ pbsnodes

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 说明文书

宁ICP备18001539号-1