dga20-cluster - avis d'interruption de services

Ajouté par Thierry Coudert il y a plus de 5 ans

Nous avons dernièrement investi dans une nouvelle solution de stockage pour remplacer la baie Panasas arrivée en fin de garantie. Malgré nos tests préalables, nous rencontrons des problèmes de temps d’accès au filesystem /travail. Pour la résolution de ce problème, nous sommes accompagnés du support RedHat et d’un ingénieur spécialisé sur l’outil GlusterFS qui gère les accès. Malgré la modification de différents paramètres, les temps de réponse restent trop longs. Afin de ne pas vous pénaliser plus longtemps, nous allons donc basculer /travail sur une autre baie de disque.
Cette intervention nécessite un arrêt total de l'utilisation de /travail le temps d'effectuer une dernière synchronisation de l'espace actuel vers le nouveau. Cette interruption de service d'une durée difficile à estimer (peut être 2h00) car elle dépend de la quantité de fichiers à copier, doit être planifiée (arrêt des connexions sur dga20, suppression des jobs en cours d'exécution sur le cluster pour les utilisateurs ayant accès au filesystem /travail).

Cette intervention aura peut être lieu le lundi 10 juin (une annonce sera faite quelques temps avant) si la synchronisation est terminée sans qu'il soit actuellement possible de préciser l'horaire exact.

NOTE: les jobs sge de l'équipe GenEval et de l'équipe Production du CTIG en cours d'exécution sur le cluster ne seront ni supprimés ni suspendus durant l'intervention, par contre les jobs soumis ne démarreront pas.

Afin que la dernière synchronisation de /travail se fasse plus rapidement, il serait préférable de ne pas soumettre trop de jobs écrivant sur /travail ce week-end


Commentaires