天天看点

PBS 排队系统一直不能运行

PBS 排队系统一直不能运行

tips

看到木虫社区有人发帖,为了帮助到更多的人,所以把问题和解决都贴过来。

原来的问题

老板在集群上开了一个账户给我,但是提交PBS脚本后,qstat状态一直显示为C,cpu运行时间也全部为0。通过查看邮件报错信息,显示为An error has occurred processing your job, see below.

Post job file processing error; job 1608 on host compute-0-4/2Unknown resource type REJHOST=compute-0-4.local MSG=invalid home directory ‘/export/home/wj’ specified, errno=2 (No such file or directory).

请问有人遇到同样的问题吗?求问怎么解决?谢谢

本人的回答

尽管帖子已经过去很多时间了。但是作为一名以前用过PBS的人员来说,经历并感受到了很多非IT专业人员使用PBS等队列系统遇到问题时的无助。

下面将分享一下楼主的问题和可能的原因,以及遇到这类问题如何解决。楼主收到的PBS邮件提示在compute-0-4.local这台机器上面,没有找到/export/home/wj这个目录。

通过PBS集群的基本构造,楼主所在的集群使用了一个NFS系统,然后所有节点都挂载该目录来共享用户主目录、程序文件和数据文件。那么出现这种错误的原因是,在compute-0-4.local这台机器上面,没有执行NFS文件目录的挂载,将/export/home/目录挂载后,应该可以执行了。或者说不会报这个错误了。

PBS提交任务出现问题的解决思路。当我们使用qsub jobfile提交作业之后,会返回一个作业ID。通过这个作业ID,我们可以查询这个作业的运行情况。

1.执行qstat jobid查看作业基本状态,如果作业很快从Q->R->C状态,即作业很快结束。则执行如下命令

2.执行qstat -f jobid查看作业运行的详细信息,其中包括,输出文件,错误文件,以及提示信息,通过查看这些信息,我们可以找到具体的原因。

3.通过第2步中找到的具体报错信息,来对症下药,解决问题。很多时候,PBS作业提交出现问题,都不是PBS本身的问题,可能是软件环境配置问题、文件系统问题、作业脚本本身问题等。

希望能够帮助到大家。下次会专门写一封帖子介绍HPC软硬件环境,以及PBS作业系统使用时常见的问题。

继续阅读