Incidència #5575
tancatError de hardware a Mompou (servidor del DDD, Traces, IFMuC i wikis)
Afegit per Ferran Jorba fa aproximadament 6 anys. Actualitzat fa aproximadament 6 anys.
Descripció
Aquest matí, a partir de les 6:24, el servidor ha començat a gravar missatges d'error que, segons tots els indicis, són d'avaria de hardware.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #1
Les avaries de hardware acostumen a ser difícils de diagnosticar. Inicialment semblava un problema d'una corrupció en algunes taules de la base de dades, que implicaven un procés automàtic de diagnstic i autoreparació.
Per accel·lerar el procés d'autoreparació de la base de dades, a les 10:43 he tancat l'accés web al servidor.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #2
- Estat ha canviat de Creada a En curs
Un cop reparada la base de dades, i amb un diagnòstic més clar d'error de hardware, a les 12 del migdia hem donat accées web als serveis de Mompou, però amb accés només de lectura on es podien produir més errors, és a dir, al DDD i a Traces. Redmine no ho permet, però la base de dades SQLite és més petita i està més ben preparada per interrupcions imprevistes.
Mentrestant, he deixat que se'n faci una còpia de seguretat més actualtizada. La de Traces, més petita, s'ha acabat bé a les 13:34, però la del DDD, molt més gran, no ha tingut temps d'acabar mentre el servidor es reiniciava automàticament. A partir de les 14:51 he tornat a iniciar un tercer backup de la base de dades.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #3
Ens avisen que el tècnic d'HP no vindrà fins demà al matí. Per tant, anul·lo totes les tasques automàtiques programades i aviso via SB21.
CA Actualitzat per Cristina Azorin fa aproximadament 6 anys Accions #4
- Tipus de tasca ha canviat de Tasca a Incidència
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #5
El backup complet, amb les taules reparades, ha acabat correctament a les 16:18.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #6
Encara no tenim notícies del tècnic d'HP. Aniré apuntant aquí el que sàpiga.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #7
- Prioritat ha canviat de Normal a Immediata
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #8
En Xavier Castilla m'acaba de dir que trucarà al comercial per pressionar-los.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #9
La resposta és que sí, que està en mans dels tècnics. El que sí que diu que diuen és que no més tard d'avui a les 6 de la tarda ja estarà arreglat.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #10
El tècnic d'HP ha substituit una de les CPU del servidor, que estava avariada. De tota manera, ha observat uns missatges d'error que podrien estar relacionats amb una segona avaria de la placa base.
Per tant, el servidor podria tornar a fallar. Fins dilluns al matí la incidència resta oberta per part d'HP, que consideren que si aleshores no ha tornat a fallar, vol dir que està arreglat.
De tota manera, per part nostra, deixo el servei només de lectura fins a les 15:00 en modus lectura, perquè si torna a donar error en les properes tres hores, no es perdin dades. A les tres obriré totalment el servei.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #11
Acabo d'obrir el DDD per escriptura, esperant que no torni a fallar. Tancarem la tasca dilluns, si no hi ha més errors.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #12
- Estat ha canviat de En curs a Tancada
Avui hem après que va ser a partir d'un malentès sobre l'hora que plegaven els nostres operadors i l'hora que podia arribar el tècnic d'HP que va fer que no vinguessin el mateix dia i fos l'endemà. El nostre contracte és de 24x7, de manera que, si no fos pel malentès, haguessin vingut el mateix dimecres 29 a la tarda. Ja no hauria de tornar a passar.
En tot cas, com que no s'ha tornat a repetir, donem la incidència per tancada.