[Storage-users]Angående bandrobotproblemet

Anders Rönnbrant andro at nsc.liu.se
Wed Mar 8 12:55:45 CET 2006


-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Hej,

Här kommer en liten kort uppdatering vad som hänt med lagringssystemet och hur
det hela har fortlöpt.

AIX-maskinen som hanterar den automatiska migreringen av filer gick alltså ned
den 22/2. Varför är fortfarande oklart. Direkt efter omstart skedde detsamma
efter ca 60 sek och någon analys var därför omöjlig. IBM underrättades och
tillslut kunde tillräckligt med processer stoppas för att den skulle hålla sig
uppe. Det visade sig vara processerna som sköter migreringen som var de skyldiga.

AIX-maskinen har därefter fått ny firmware, något som var nödvändigt eftersom
den gamla innehöll en del allvarliga buggar. Dessa medförde att ingen dump
kunde tas av systemet och att cpuerna avkonfigurerades så att inte ens en boot
kunde genomföras. Varför detta inte skett tidigare är ej utrett, men det var
ett känt fel som fixats i senare firmware-versioner.

AIX är uppgraderat till senaste version och en dump på systemet har skickats
till IBM som analyserat denna. Svaret från deras labb tolkar jag som att detta
är en bugg vi sprungit på. Nedan är en del av svaret från IBM:

8<-----
This looks like some sort of J2 cache related problem.
.
This looks like cmvc defect 540848 which is still being worked.
.
The errpr log has a large number of SCAN_ERROR_CHRP error log entries
that give me cause for concern but I do not think that they are the
cause of this jcache related problem. Kernel heap and pinned memory,
net malloc memory use is ok. There is no unfinished IO.
.
This needs to be further investigated by the JFS2 team.
.
ACTION PLAN: Transfer call to l3kern for thr JFS2 team.
8<-----

I nuläget verkar systemet stabilt, alla filsystem är hela och alla processer
UTOM migrerings-processerna är igång och fungerar som de ska. Detta tyder på
att det är något problem med just migrerings-funktionen och inget annat.

Vi vet just nu inte när en lösning kan dyka upp, men vi inväntar fler svar
från IBM och med ledning av cache-problemet de nämner ovan skall jag försöka
undersöka detta vidare från vårt håll.


- --

// Anders Rönnbrant
=======================================================
 National Supercomputer Centre, Linköpings universitet
 andro at nsc.liu.se               http://www.nsc.liu.se

 Phone: +46 (0)13 282686
 Mob:   +46 (0)730 536611
 -----------------------------------------------------
 E9DC 1CAE 40D9 80BB 9465  49C7 FA95 BE88 D29C 8141
=======================================================

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.1 (GNU/Linux)

iD8DBQFEDsZB+pW+iNKcgUERAhNOAJ446+tKcvmXammHXVaae3VX1QHckgCcCHC0
Y/P/hxij6p27pB81pEL9mNM=
=tsjy
-----END PGP SIGNATURE-----


More information about the Storage-users mailing list