表 6–1 ジョブ関連のエラーまたは終了コード
スクリプト/方法 | 終了またはエラーコード | 意味 |
---|---|---|
ジョブスクリプト | 0 | 成功 |
99 | 再度キューに入れる | |
Rest | 成功。アカウンティングファイルの終了コード | |
プロローグ/エピローグ | 0 | 成功 |
99 | 再度キューに入れる | |
Rest | キューのエラー状態。ジョブは再度キューに入れられる |
次の表に、並列環境 (PE) 構成関のジョブのエラーコードまたは終了コードの意味を示します。
表 6–2 並列環境関連のエラーまたは終了コードスクリプト/方法 | 終了またはエラーコード | 意味 |
---|---|---|
pe_start | 0 | 成功 |
Rest | キューをエラー状態に設定。ジョブは再度キューに入れられる | |
pe_stop | 0 | 成功 |
Rest | キューをエラー状態に設定。ジョブは再度キューには入れられない |
次の表に、キュー構成関連のジョブのエラーコードまたは終了コードの意味を示します。これらのコードは、対応する方法が書き換えられた場合にのみ有効です。
表 6–3 キュー関連のエラーまたは終了コードスクリプト/方法 | 終了またはエラーコード | 意味 |
---|---|---|
ジョブ開始 | 0 | 成功 |
Rest | 成功。他の意味は特になし | |
一時停止 | 0 | 成功 |
Rest | 成功。他の意味は特になし | |
再開 | 0 | 成功 |
Rest | 成功。他の意味は特になし | |
終了 | 0 | 成功 |
Rest | 成功。他の意味は特になし |
次の表に、チェックポイント設定関連のジョブのエラーコードまたは終了コードの意味を示します。
表 6–4 チェックポイント設定関連のエラーまたは終了コードスクリプト/方法 | 終了またはエラーコード | 意味 |
---|---|---|
チェックポイント | 0 | 成功 |
Rest | 成功。ただし、カーネルチェックポイントの場合は、チェックポイントが成功しなかったことを意味する。 | |
移行 | 0 | 成功 |
Rest | 成功。ただし、カーネルチェックポイントの場合は、チェックポイントが成功しなかったことを意味する。移行は行われる。 | |
再開 | 0 | 成功 |
Rest | 成功。他の意味は特になし | |
後処理 | 0 | 成功 |
Rest | 成功。他の意味は特になし |
正常に実行されたジョブに対して、qacct -j コマンドからの出力は、「failed」フィールドに「0」を示し、「exit_status」フィールドにジョブの終了ステータスを示します。ただし、シェパードがジョブを正常に実行できない場合があります。たとえば、epilog スクリプトが失敗したり、シェパードがジョブを開始できない場合があります。このような場合、「failed」フィールドは、次の表のコードの値のいずれかを表示します。
表 6–5 qacct -j failed フィールドコードコード | 説明 | acctvalid | ジョブに対する意味 |
---|---|---|---|
0 | No failure | t | ジョブは実行され、正常に終了された |
1 | Presumably before job | f | ジョブを開始できなかった |
3 | Before writing config | f | ジョブを開始できなかった |
4 | Before writing PID | f | ジョブを開始できなかった |
5 | On reading config file | f | ジョブを開始できなかった |
6 | Setting processor set | f | ジョブを開始できなかった |
7 | Before prolog | f | ジョブを開始できなかった |
8 | In prolog | f | ジョブを開始できなかった |
9 | Before pestart | f | ジョブを開始できなかった |
10 | In pestart | f | ジョブを開始できなかった |
11 | Before job | f | ジョブを開始できなかった |
12 | Before pestop | t | ジョブは実行され、PE 停止手続きの呼び出し前に障害が発生した |
13 | In pestop | t | ジョブは実行され、PE 停止手続きで障害が発生した |
14 | Before epilog | t | ジョブは実行され、epilog スクリプトの呼び出し前に障害が発生した |
15 | In epilog | t | ジョブは実行され、epilog 内で障害が発生した |
16 | Releasing processor set | t | ジョブは実行され、プロセッサセットは解放できなかった |
24 | Migrating (checkpointing jobs) | t | ジョブは実行され、移行される予定 |
25 | Rescheduling | t | ジョブは実行され、再スケジューリングされる予定 |
26 | Opening output file | f | ジョブを開始できず、stderr/stdout ファイルを開けない |
27 | Searching requested shell | f | ジョブを開始できず、シェルを検出できない |
28 | Changing to working directory | f | ジョブを開始できず、エラーで開始ディレクトリへ移動した |
100 | Assumedly after job | t | ジョブは実行され、信号によってジョブ終了させられた。 |
「コード」の列には、「failed」フィールドの値が一覧表示されています。「説明」列には、qacct -j の出力で表示されるテキストが一覧表示されています。acctvalid が t に設定されている場合、ジョブアカウンティングの値は有効です。acctvalid が f に設定されている場合、アカウンティングレコードのリソース使用率は有効ではありません。「ジョブに対する意味」の列では、ジョブが実行されたのかどうかが示されています。