SV: [Dunder-users] Jobblängder på dunder
Eilola Kari
Kari.Eilola at smhi.se
Wed Jan 17 13:44:03 CET 2007
Hej Thomas.
Jag förstår ert problem.
Jag stoppar en av mina körningar nu.
Jag skall konsultera Markus Meier om hur vi skall fortsätta med mina körningar.
Mvh Kari.
-----Ursprungligt meddelande-----
Från: dunder-users-bounces at lists.nsc.liu.se [mailto:dunder-users-bounces at lists.nsc.liu.se] För Tomas Wilhelmsson
Skickat: den 17 januari 2007 13:11
Till: dunder-users at nsc.liu.se
Kopia: dunder-admin at nsc.liu.se
Ämne: [Dunder-users] Jobblängder på dunder
Hejsan dunder-användare!
Jag tror vi behöver ha en diskussion om hur stor andel av dunder som kan
upptas av långa jobb!
Som kön ser ut just nu är 40 av 50 noder upptagna av långa jobb, och det
med *närmaste* sluttid ska bli klart först sent i morgon kväll. Kari
Eilola har två 8-noders jobb på 3.75 dygn (90 timmar) inne, och Robert
Bergström har sex 4-noders jobb, alla med en körtid på drygt två dygn
(58 timmar).
De närmaste två dagarna går det alltså inte att köra något jobb större
än 10 noder. Det tycker jag personligen inte är så bra, det blir t.ex.
omöjligt att göra korta experiment med större antal processorer.
Speciellt Hirlam-körningar kommer i kläm. Sedan en tid tillbaka kör vi
nämligen dessa på samma sätt som på ECMWF, genom att köa varje delsteg
för sig. Ett parallellexperiment med en månads prognoser kommer att
bestå av ett hundratal jobb, där inget tar mer än en timme och de flesta
är mycket korta. Sådana körningar stoppas lätt upp som det är nu. T.ex.
har jag för ögonblicket jag ett 16-noders jobb och Martin Stengel två
13-noders jobb i kön, båda med en maximal jobblängd på en timme.
Tidigare så submittade vi ett sådant experiment som ett stort, långt
jobb. Men en Hirlam-cykel består av många delsteg, där alla inte är
lika parallella. Således användes inte processorerna hela tiden, vilket
var ett slöseri med resurser. Med många korta jobb så använder vi
verkligen det vi har allokerat. Kanske måste vi gå tillbaka till långa
stora jobb ändå, för nu är det för lätt att en sådan pågående körning
stoppas upp i flera dygn!
Behöver vi kanske avsätta en större andel av maskinen för kortare jobb
under (åtminstone) vardagar dagtid? Jag välkommnar en diskussion!
Hälsningar,
Tomas
sm_towil at dunder:~/hl_home/4d71b1str>showq
active jobs------------------------
JOBID USERNAME STATE PROC REMAINING
36852 sm_keilo Running 16 3:17:44:28
36737 sm_keilo Running 16 2:23:27:40
36796 sm_rberg Running 8 2:00:24:07
36795 sm_rberg Running 8 1:21:01:42
36684 sm_rberg Running 8 1:14:23:09
36679 sm_rberg Running 8 1:14:08:31
36578 sm_rberg Running 8 1:12:08:45
36740 sm_rberg Running 8 1:09:41:08
8 active jobs 80 of 100 processors in use by local jobs (80.00%)
40 of 50 nodes active (80.00%)
eligible jobs----------------------
JOBID USERNAME STATE PROC WCLIMIT
QUEUETIME
36853 sm_msten Idle 26 00:20:00
36854 sm_msten Idle 26 1:00:00
36865 sm_towil Idle 32 1:00:00
3 eligible jobs
_______________________________________________
dunder-users mailing list
dunder-users at lists.nsc.liu.se
http://www.nsc.liu.se/mailman/listinfo/dunder-users
More information about the dunder-users
mailing list