天天看點

PBS 排隊系統一直不能運作

PBS 排隊系統一直不能運作

tips

看到木蟲社群有人發帖,為了幫助到更多的人,是以把問題和解決都貼過來。

原來的問題

老闆在叢集上開了一個賬戶給我,但是送出PBS腳本後,qstat狀态一直顯示為C,cpu運作時間也全部為0。通過檢視郵件報錯資訊,顯示為An error has occurred processing your job, see below.

Post job file processing error; job 1608 on host compute-0-4/2Unknown resource type REJHOST=compute-0-4.local MSG=invalid home directory ‘/export/home/wj’ specified, errno=2 (No such file or directory).

請問有人遇到同樣的問題嗎?求問怎麼解決?謝謝

本人的回答

盡管文章已經過去很多時間了。但是作為一名以前用過PBS的人員來說,經曆并感受到了很多非IT專業人員使用PBS等隊列系統遇到問題時的無助。

下面将分享一下樓主的問題和可能的原因,以及遇到這類問題如何解決。樓主收到的PBS郵件提示在compute-0-4.local這台機器上面,沒有找到/export/home/wj這個目錄。

通過PBS叢集的基本構造,樓主所在的叢集使用了一個NFS系統,然後所有節點都挂載該目錄來共享使用者主目錄、程式檔案和資料檔案。那麼出現這種錯誤的原因是,在compute-0-4.local這台機器上面,沒有執行NFS檔案目錄的挂載,将/export/home/目錄挂載後,應該可以執行了。或者說不會報這個錯誤了。

PBS送出任務出現問題的解決思路。當我們使用qsub jobfile送出作業之後,會傳回一個作業ID。通過這個作業ID,我們可以查詢這個作業的運作情況。

1.執行qstat jobid檢視作業基本狀态,如果作業很快從Q->R->C狀态,即作業很快結束。則執行如下指令

2.執行qstat -f jobid檢視作業運作的詳細資訊,其中包括,輸出檔案,錯誤檔案,以及提示資訊,通過檢視這些資訊,我們可以找到具體的原因。

3.通過第2步中找到的具體報錯資訊,來對症下藥,解決問題。很多時候,PBS作業送出出現問題,都不是PBS本身的問題,可能是軟體環境配置問題、檔案系統問題、作業腳本本身問題等。

希望能夠幫助到大家。下次會專門寫一封文章介紹HPC軟硬體環境,以及PBS作業系統使用時常見的問題。

繼續閱讀