SV: [Dunder-users] Jobblängder på dunder

Wed Jan 17 13:44:03 CET 2007

Hej Thomas.
Jag förstår ert problem.
Jag stoppar en av mina körningar nu.
Jag skall konsultera Markus Meier om hur vi skall fortsätta med mina körningar.
Mvh Kari.

-----Ursprungligt meddelande-----
Från: dunder-users-bounces at lists.nsc.liu.se [mailto:dunder-users-bounces at lists.nsc.liu.se] För Tomas Wilhelmsson
Skickat: den 17 januari 2007 13:11
Till: dunder-users at nsc.liu.se
Kopia: dunder-admin at nsc.liu.se
Ämne: [Dunder-users] Jobblängder på dunder

Hejsan dunder-användare!

Jag tror vi behöver ha en diskussion om hur stor andel av dunder som kan 
upptas av långa jobb!

Som kön ser ut just nu är 40 av 50 noder upptagna av långa jobb, och det 
med *närmaste* sluttid ska bli klart först sent i morgon kväll. Kari 
Eilola  har två 8-noders jobb på 3.75 dygn (90 timmar) inne, och Robert 
Bergström har sex 4-noders jobb, alla med en körtid på drygt två dygn 
(58 timmar).

De närmaste två dagarna går det alltså inte att köra något jobb större 
än 10 noder.  Det tycker jag personligen inte är så bra, det blir t.ex. 
omöjligt att göra korta experiment med större antal processorer.

Speciellt Hirlam-körningar kommer i kläm. Sedan en tid tillbaka kör vi 
nämligen dessa på samma sätt som på ECMWF, genom att köa varje delsteg 
för sig. Ett parallellexperiment med en månads prognoser kommer att 
bestå av ett hundratal jobb, där inget tar mer än en timme och de flesta 
är mycket korta. Sådana körningar stoppas lätt upp som det är nu. T.ex. 
har jag för ögonblicket jag ett 16-noders jobb och Martin Stengel två 
13-noders jobb i kön, båda med en maximal jobblängd på en timme.

Tidigare så submittade vi ett sådant experiment som ett stort, långt 
jobb.  Men en Hirlam-cykel består av många delsteg, där alla inte är 
lika parallella. Således användes inte processorerna hela tiden, vilket 
var ett slöseri med resurser.  Med många korta jobb så använder vi 
verkligen det vi har allokerat. Kanske måste vi gå tillbaka till långa 
stora jobb ändå, för nu är det för lätt att en sådan pågående körning 
stoppas upp i flera dygn!

Behöver vi kanske avsätta en större andel av maskinen för kortare jobb 
under (åtminstone) vardagar dagtid? Jag välkommnar en diskussion!

Hälsningar,
Tomas

sm_towil at dunder:~/hl_home/4d71b1str>showq

active jobs------------------------
JOBID              USERNAME      STATE  PROC   REMAINING

36852              sm_keilo    Running    16  3:17:44:28
36737              sm_keilo    Running    16  2:23:27:40
36796              sm_rberg    Running     8  2:00:24:07
36795              sm_rberg    Running     8  1:21:01:42
36684              sm_rberg    Running     8  1:14:23:09
36679              sm_rberg    Running     8  1:14:08:31
36578              sm_rberg    Running     8  1:12:08:45
36740              sm_rberg    Running     8  1:09:41:08

8 active jobs            80 of 100 processors in use by local jobs (80.00%)
                           40 of 50 nodes active      (80.00%)

eligible jobs----------------------
JOBID              USERNAME      STATE  PROC     WCLIMIT 
QUEUETIME

36853              sm_msten       Idle    26    00:20:00
36854              sm_msten       Idle    26     1:00:00
36865              sm_towil       Idle    32     1:00:00

3 eligible jobs

_______________________________________________
dunder-users mailing list
dunder-users at lists.nsc.liu.se
http://www.nsc.liu.se/mailman/listinfo/dunder-users