Dear Vagn users,<br><br>Three pieces of information for you:<br><br>1: Next Tuesday (2012-01-24) we will upgrade the batch scheduler (SLURM) on Vagn to version 2.3. If all goes well, the only thing you will notice is that you will not be able to start new interactive jobs, schedule batch jobs , check job status etc during a period of a few minutes sometime before lunch.<br>

<br>We have tested the upgrade on a test system, but no tests can be 100% realistic, so something might still go wrong. The worst thing that can realistically happen is that all running and queued jobs are killed and need to be re-run/re-submitted, but I consider the risk of that happening to be low. However, if you have VERY time-critical jobs that need to run next week, let me know and we can reschedule this upgrade.<br>

<br><br>2: The Vagn User Guide (<a href="http://www.nsc.liu.se/systems/vagn/">http://www.nsc.liu.se/systems/vagn/</a>) has been updated. I have added some sections (e.g how to submit lots of batch jobs without hogging all Vagn nodes) which I&#39;ve written about before but only sent out as email to some users.<br>

<br>Please let me know if you find anything wrong, something missing that was in the old User Guide or some important subject that you think we should document better. (If you want to check something in the old User Guide, it has been saved as <a href="http://www.nsc.liu.se/systems/vagn/userguide-2012-01-18.html">http://www.nsc.liu.se/systems/vagn/userguide-2012-01-18.html</a>).<br>

<br><br>3: IMPORTANT: If you start an interactive or batch job on an analysis node and then log in to that node in a new window using SSH, anything started from that SSH login will NOT be subject to the normal limitations on job time and memory size (i.e those processes will not be killed when your job ends, and those processes will not be killed if they exceed your jobs memory limit).<br>

<br>This means that processes started from an SSH login to an analysis node can cause the node to run out of memory because they are not counted towards the memory limit used by SLURM to determine how many jobs can run on a node. This is now documented on <a href="http://www.nsc.liu.se/systems/vagn/#sec-4-5">http://www.nsc.liu.se/systems/vagn/#sec-4-5</a><br>

<br>This has caused at least one node to run out of memory recently, but it might have been responsible for more out-of-memory incidents in the past.<br><br>Using the SSH login option is only permitted to check or debug your &quot;real&quot; jobs running on that node (e.g ls, cat, top, ps, gdb, ...). Not matlab, paraview, cdo, ...<br>

<br>If this loophole turns out to be a problem we can probably plug it with some clever SLURM hack, but I would prefer to spend my time on other things, so I hope all users will respect this and not use SSH logins in the way I have described above.<br>

<br><br><span style="text-indent:0px;letter-spacing:normal;font-variant:normal;font-style:normal;font-weight:normal;line-height:normal;border-collapse:separate;text-transform:none;font-size:medium;white-space:normal;font-family:&#39;Times New Roman&#39;;word-spacing:0px"><span style="font-family:arial;font-size:small">-- <div>


Mats Kronberg, NSC Support &lt;<a href="mailto:vagnekman-support@snic.vr.se">vagnekman-support@snic.vr.se</a>&gt;</div></span></span>