高通量計算框架HTCondor(三)——使用命令

  • 2020 年 1 月 31 日
  • 筆記

目錄

1. 目錄

HTCondor環境配置完成後,安裝文件目錄如下:

其中bin目錄裡面存放了一系列condor_開頭的可執行程式,正是通過這些指令程式來實現分散式計算的。其中有個GUI程式condor_birdwatcher.exe,打開後運行介面如下:

從程式名稱可以看出這是個查看器程式,分別顯示condor_q與condor_status的輸出資訊。

execute目錄是程式執行目錄,當集群運行時,會把程式、數據等發送到該目錄中運行。

condor_config是HTCondor的配置文件,也就是上一章配置的環境都保存在這個文件中。一些更加高級的功能,可以通過修改這個配置文件來實現。

2. 進程

HTCondor環境配置完成後,服務項會啟動一個condor服務:

默認這個服務是延遲啟動的,一旦啟動就會運行一系列condor_開頭的後台進程:

這些後台進程的具體功能可以參考HTCondor的文檔。其中,發送的計算任務程式會進一步封裝成condor_exec,在任務機器運行。

3. 命令

HTCondor可以在命令提示符中運行一系列condor_開頭的命令(與bin目錄中的可執行程式對應),其中最重要的命令有以下幾個:

3.1. condor_q

顯示的是當前任務隊列中任務的運行情況:

此時由於沒有提交任務,所以顯示為空。

3.2. condor_status

顯示的是當前電腦集群中計算資源的情況:

可以看到這裡連接了兩台機器,DESKTOP-OVH是一台12核的主機,charlee-PC是一台4核的主機,每一個CPU核心都算作一個計算資源。

3.3. conodr_submit

提交任務命令。HTCondor通過一個任務描述文件來提交任務,提交後會返回一個任務ID。具體的命令為:

conodr_submit 任務描述文件路徑

第一次提交任務時,一般會有如下提示:

這時可以通過以下命令,並輸入本機密碼,將證書添加到HTCondor的證書管理中心中即可:

3.4. conodr_rm

通過任務ID,刪除特定的任務:

conodr_rm 任務ID

一般來說,通過以上簡單的命令,就可以完成初步的分散式計算。

4. 相關

上一篇 目錄 下一篇