7*24小时服务热线   021-20685566
it-support@shanghaitech.edu.cn

上海科技大学高性能计算常见问题

日期:2021-04-14文章来源:图书信息中心

Q: 用户账号没有root权限,无法使用sudo命令,无法使用root权限安装软件。

A: 用户可以在自己的目录下安装使用大部分软件。软件安装过程中有任何问题都可及时联系。


Q: 如何登录集群。

A: 登录集群演示(由信息学院,叶崇南同学提供)。


Q: 如何提交一个作业。

A: 提交作业演示(由信息学院,叶崇南同学提供)。


Q: 能否实时看到项目进展?

A: 可通过命令qstat 来查看作业状态。


Q: 能否实时看到任务进展?

A: 可通过命令qstat 来查看作业状态。


Q: 为何提交作业后总是无法正常运行?

A: 建议先检查用户目录下的.ssh目录(删除或mv ~/.ssh ~/.ssh.bak),如果还是提交任务后直接报错,请检查家目录(~/)所在路径的权限(不得设置为777),如还有问题请联系管理员。


Q: 提交作业出现如下错误:qsub: submit error (Job rejected by all possible destinations (check syntax, queue resources, ...) MSG=cannot route job 1541101.node1)

A: 一般情况队列名称出错,请核对计算队列名称。如需要确认队列名,请联系管理员进行排查。


Q: 脚本中的walltime的单位和qstat查看的时间单位是不是一样的?是不是HH:mm:SS?

A: 时间单位是一样的HH:MM:SS,但是qstat显示的是核小时,即单个核的运行时间*所使用核数,也就是作业实际运行时间*所使用核数。


Q: 如何使用集群的图形界面,有没有相关的教程资源?

A: 使用X11转发功能,只需选择合适的工具即可。

Windows下:

直接下载使用MobaXterm (https://mobaxterm.mobatek.net/)登陆工具,访问登录节点,即可使用X11转发功能。

Mac下:

下载安装配套软件XQuartz https://www.xquartz.org/,再使用自带的SSH登陆10.15.22.111,即可使用X11转发功能。

可参考X11转发设置演示(由信息学院,叶崇南同学提供)


Q: 如果课题组需要在服务器上安装软件包,是需自行安装还是请图信中心帮助安装呢?

A: 学校集群安装了基础的运行软件、编译器和数学库,用户可在自己目录下安装编译相关软件,安装过程中有任何问题可以及时联系平台管理员。


Q: 提交作业后为何队列名与实际运行队列名不同。

A: 是正常显现:

1) 队列属性可能为route队列的情况下,调度系统会根据提交作业资源需求,根据策略设置流转到合适资源的队列内进行计算;

2) 可能管理员,根据资源情况,调配相关排队任务到相对空闲的资源队列下,以保证整体资源的高效可用。


Q: 我自己编译的软件,需要在配置文件里写入队列信息,如何获取?

A: 可检查账号开设时的通知邮件,或联系管理员。


Q: 如何在hpc上使用matlab engine?

A: 1)登陆10.15.22.111

    2)module add apps/matlab/r2016

    3)module load apps/python/3.5.9

    4)cd /opt/MATLAB/R2016b/extern/engines/python

    5)python setup.py build --build-base=builddir install --prefix=installdir (路径自己设定)

    6)python

    7)import matlab.engine

    8)engine = matlab.engine.start_matlab()


Q: 编译或运行过程中提示:缺少'GLIBC_2.14' 版本库(或更高的GLIBC库)。

A: 可以加载module load apps/glib/2.14

如果依然报错,建议将作业参考一下的作业提交方式将作业提交到Centos7的计算节点上。

例:#pbs -l nodes=1:ppn=1:centos7

同样,这样的方法也可以适用于将作业提交到特定设备类型的节点上:

例:#pbs -l nodes=1:ppn=7:gpus=1:V100

具体属性参数,可通过pbsnode <节点名>了解具体内容。


Q: 如有大量数据样本需要处理,或者需要分析的任务规模很大,超出可用资源,如何开展计算任务?

A: 在任务设计方面,可以通过分割、串联等多种方式,将任务分解后进行。建议参考链接:https://hpc.llnl.gov/training/tutorials/introduction-parallel-computing-tutorial#DesignPartitioning


Q: 如何将计算相关文件上传集群。

A: 与集群传输文件演示(由信息学院,叶崇南同学提供)。


Q: environment modules如何使用。

A: Environment Modules的使用演示(由信息学院,叶崇南同学提供)。


Q: 如何在集群使用Matlab?

A: 可参考:

上海科技大学高性能计算共享服务平台_MATLAB集群版(MDCS)_用户使用手册

上海科技大学高性能计算共享服务平台_MATLAB集群版(MDCS)_用户FAQ


Q: 如何编译安装VASP。

A: 编译配置文件可用makefile.include,替换源码包内对应的makefile.include。具体编译过程可参见物质学院软件编译及使用-魏旗(由物质学院,魏旗同学提供)。

GPU在部分体系下有运行效率的提升,具体可参见:GPU Accelerated VASP Test Report(由物质学院,魏旗同学和信息学院高龙同学合作完成测试)。


Q: Schrodinger如何使用。

A: 可参考Schrodinger Simple Manual-薛定谔使用基本介绍-王林(由免疫化学所,王林同学提供)。


Q: Tensorflow-GPU如何在集群上安装?

A: 可参考Tensorflow-GPU 集群安装指南-谢松杰由信息学院,谢松杰同学提供)。


Q: 如何通过MAC登录集群?

A: 可参考高性能平台Mac登陆手册(由信息学院,谢松杰同学提供)。


Q: 生命学院常用软件编译和使用?

A: 可参考生命学院软件编译及使用(由生命学院,宋敏芳同学提供)。


Q: 集群安装R包?

A可参考Unix like R-4.1.1 install(由物质学院,刘晓迁同学提供)。