Focus

Panne informatique : récit d'une crise inédite

Une panne informatique générale s’est déclenchée sur le campus, mercredi 6 janvier, impactant le travail des personnels et les sessions d’examens de nombreux étudiants jusqu’à la fin de la semaine. A la Direction du numérique (DNum) s’est ouvert un épisode de gestion de crise intense qui a mobilisé quasiment toutes les équipes, dont certaines jour et nuit. Récit et explications d’une crise, comme on n’en voit heureusement pas souvent.

Que s’est-il passé le 6 janvier ?

Le 6 janvier en fin de matinée, notre cœur de réseau est tombé, entrainant une panne informatique générale. La cause de cette panne est une boucle qui s’est formée dans un réseau local, au Pôle européen de gestion et d'économie (Pege). Elle s’est amplifiée et a généré un trafic qui a fait tomber le réseau.

Il ne s’agit donc pas d’un acte malveillant ou d’une cyberattaque.

Pourquoi la panne a-t-elle duré plusieurs jours ?

Ce type de panne est souvent difficile à diagnostiquer. Celle-ci, du fait du semi-confinement, a été encore plus délicate à repérer. Nous rencontrions donc des difficultés dans le diagnostic, sachant qu’une partie des étudiants étant en période d’examen, nous avons opté pour une autre stratégie, qui consiste à contourner le problème pour redémarrer les services essentiels (l’authentification, la messagerie, Moodle et surtout Moodle Exam, etc.). L’inconvénient, c’est que c’est un peu plus chronophage. Par ailleurs, la durée de la panne s’explique aussi par des réactions en chaîne. Quand le cœur de réseau tombe, cela provoque des pannes en cascades. Il faut donc beaucoup de temps pour faire redémarrer tout le système.

Comment contourne-t-on un problème de ce type ?

En fait, tout ce qui tournait sur les serveurs du data-centre, directement relié à internet, n’a pas été impacté par la panne, puisqu’elle se situait sur notre réseau Osiris. Nous avons donc déplacé les services essentiels sur ces serveurs. C’était une solution envisageable dans un contexte de télétravail très large et d’examens distanciels pour les étudiants. Ces services fonctionnaient donc depuis l’extérieur des campus.

Comment avez-vous pris conscience, à la DNum, de ce qui était en train de se passer ? Quand avez-vous compris que c’était grave ?

Nous avons une supervision organisée au sein du service qui surveille le réseau et les applicatifs. Mais là, l’ampleur de la panne a fait que, d’une part, nous constations nous-mêmes ce qui ne marchait pas, et d’autre part, nous avons eu une remontée massive des usagers, qui alertaient le support informatique et même appelaient directement dans le service. Nous avons compris très vite que c’était grave et global. Ce qui était moins clair pour nous, c’est le temps qu’il faudrait pour résoudre le problème.

Très concrètement, comment avez-vous abordé cette crise ?

Très vite, nous avons déclenché la cellule de crise interne à la DNum, et rappelé des équipes sur place. Comme partout dans l’université, beaucoup de nos collègues étaient en télétravail.

Les ingénieurs réseau ont été mobilisés pour chercher la panne et régler le problème. Ceux qui travaillent sur les applicatifs se sont concentrés sur les services essentiels à redémarrer. Les collègues de la DNum qui sont chargés de la communication et de la relation avec les usagers ont travaillé à informer nos correspondants dans les composantes, les établissements partenaires et les usagers eux-mêmes, sans pouvoir utiliser les listes de diffusion et les sites d’information, du moins pendant les premiers temps. Heureusement que nous avons un système de diffusion par SMS, avec de nombreux abonnés.

Finalement, on peut dire que, vu son ampleur, la résolution de cette panne a impliqué quasiment tout le service. Les ingénieurs réseau ont travaillé la nuit de mercredi à jeudi et de jeudi à vendredi, également vendredi soir tard et une partie du week-end. On a fonctionné avec un système de « quarts » comme sur un bateau, car il fallait bien aussi qu’ils dorment un peu !

Y a-t-il un risque de récidive ? Que faites-vous pour l’éviter ?

Le contournement mis en place est une sécurité en cas de récidive. Il sécurise de manière pérenne les services les plus importants. Le déploiement du réseau Osiris 4, qui doit se faire courant 2021, et remplacer Osiris 3, apportera aussi des évolutions technologiques propres à sécuriser le réseau.

Enfin, nous allons débriefer, chercher des pistes d’amélioration, qui peuvent également concerner la gestion de la crise elle-même, la circulation de l’information, dans et à l’extérieur du service.

Caroline Laplane

Ce texte est issu d’une interview collective donnée par Julien Dupré, directeur adjoint de la DNum ; Damien Braun, responsable du pôle Accompagnement des usagers et des projets ; Laurence Moindrot, responsable du Pôle des applications collaboratives et pédagogiques ; Romaric David, responsable de pôle réseau ; Pascal Gris, responsable des infrastructures

La porte s'entrouvre pour un r... Changer d'article  Le centrage pour favoriser la ...