Le 19 juillet 2024, une mise à jour défectueuse de l’antivirus CrowdStrike a provoqué des pannes informatiques mondiales, affectant principalement les services Microsoft utilisés par de grandes entreprises et administrations.
Conséquence directe, de très nombreuses applications et services Microsoft sont devenus inaccessibles, perturbant les opérations de milliers d’organisations. Microsoft a confirmé que cette panne majeure était liée à CrowdStrike, et a indiqué que la source du problème avait été identifiée et était en cours de correction. Cette situation souligne l’importance des mises à jour logicielles dans un monde de plus en plus dépendant de la technologie. ChannelBiz vous partage aujourd’hui les 1ères réaction des acteurs de l’ecosystème IT.
« Aujourd’hui, c’est Microsoft qui décide de qui travaille et qui ne travaille pas » : Vers une prise de conscience de l’importance de la souveraineté numérique ?
« Je n’avais pas réalisé à quel point cela pouvait être possible : aujourd’hui, c’est Microsoft qui décide de qui travaille et qui ne travaille pas. » Ce constat alarmant a été fait ce matin par l’un des clients de Frans Imbert-Vier, CEO d’UBCOM et expert en cybersécurité et en intelligence économique. Face à cette situation sans précédent, Frans Imbert-Vier partage son analyse sur l’urgence d’établir une véritable souveraineté technologique :
« (…) Plusieurs de nos clients sont totalement paralysés à cause d’une simple mise à jour. Il aura fallu une paralysie mondiale pour qu’ils réalisent enfin le danger de mettre tous leurs œufs dans le même panier. Cette crise met en lumière la fragilité criante de nos infrastructures numériques et soulève des questions importantes sur notre dépendance excessive vis-à-vis d’acteurs technologiques étrangers (…). Cette crise pourrait bien marquer un tournant dans la prise de conscience collective sur l’importance de la souveraineté numérique. Elle offre une opportunité unique de repenser nos stratégies technologiques pour un avenir numérique plus sûr et plus indépendant.»
« La facilité avec laquelle les fichiers de pilotes peuvent être supprimés soulève des questions »
Kevin Reed, Chief Information Security Officer d’Acronis, complète : « La récente panne de CrowdStrike semble provenir d’un bug dans son agent EDR (…) La mise à jour défectueuse nécessite une intervention manuelle pour être résolue, en particulier le redémarrage des systèmes en « mode sans échec » et la suppression du fichier pilote défectueux. Ce processus est fastidieux et laisse les systèmes vulnérables dans l’intervalle, invitant potentiellement à des attaques opportunistes.
Cet incident souligne l’importance de tests rigoureux et de mises à jour échelonnées pour les agents EDR. Normalement, les tests sont effectués à chaque mise à jour et peuvent prendre des jours, voire des semaines, en fonction de l’importance de la mise à jour ou des changements. La facilité avec laquelle les fichiers de pilotes peuvent être supprimés soulève également des questions sur les mécanismes d’autoprotection du logiciel de CrowdStrike (…). À l’avenir, nous recommandons à toutes les entreprises de se doter de solutions de sauvegarde robustes et de réclamer de meilleurs protocoles de test de la part de leurs fournisseurs de solutions de sécurité. »
« La mise en place de PCA et PRA est essentielle pour faire face aux risques »
Comme d’autres, Meritis, société de conseil en transformation digitale, a été affectée par l’incident. Elle était préparée et a donc immédiatement pu activer son plan de continuité d’activité informatique (PCA) et son plan de reprise d’activité informatique (PRA). Une anticipation qui lui a permis de reprendre très rapidement son activité sans dommage. Johan KLEIN, Responsable de la Practice Cybersécurité chez Meritis, ayant supervisé la résolution de l’incident :
« La mise en place de PCA et PRA est essentielle pour faire face à tout type de risques informatiques. Lorsqu’on parle de risques informatiques, on pense trop souvent à tort aux cyberattaques. Celles-ci ne sont finalement qu’un type de risque parmi d’autres à anticiper, et l’incident rencontré par Crowdstrike et Microsoft l’atteste. Dans le cas présent, toute interruption prolongée peut avoir un impact dévastateur. Une panne de plusieurs heures ou des retards importants accumulés entraînent des conséquences sur l’activité de l’entreprise. Il est d’ailleurs primordial que les PCA et PRA intègrent des objectifs de temps de reprise (RTO), c’est-à-dire un temps maximum acceptable pour rétablir les services sans trop de dommages, et des objectifs de point de récupération (RPO), soit le temps auquel les données doivent être impérativement restaurées. Ce temps va déterminer la quantité de données que l’entreprise peut se permettre de perdre ou non. »
« De l’importance d’une maintenance préventive, de mises à jour régulières et de tests proactifs »
Eileen Haggerty, VP product & solutions chez Netscout : « La panne informatique qui touche actuellement de nombreuses organisations, dont des compagnies aériennes, des médias et des banques. Les hôpitaux et les prestataires de soins de santé sont également affectés. Pour éviter les interruptions de service causées par des pannes système, ainsi que le chaos et les perturbations de performance qui en découlent, les équipes informatiques doivent avoir une visibilité complète des menaces pesant sur leur réseau.
Et pour comprendre et sécuriser pleinement le réseau, ces mêmes équipes devraient effectuer des tests synthétiques proactifs pour garantir la fonctionnalité des applications et simuler le trafic des utilisateurs réels. Ceux-ci aident à mesurer la qualité de l’expérience utilisateur et à anticiper les problèmes de performance avant qu’ils n’affectent les utilisateurs. À l’avenir, (…) les organisations devraient utiliser des outils de visibilité pour une analyse post-mortem, leur permettant de constituer un référentiel d’informations détaillé basé sur les problèmes précédemment rencontrés, les aidant ainsi à relever plus efficacement les défis futurs. »
« Aucun acteur de la cybersécurité n’est à l’abri aujourd’hui »
Omer Grossman, CIO chez CyberArk : « Les dommages causés aux processus commerciaux au niveau mondial sont considérables. Un dysfonctionnement (de l’EDR de CrowdStrike, ndlr) peut, comme nous le constatons dans l’incident actuel, provoquer un blocage du système d’exploitation. Deux questions principales se posent alors :
- La première est de savoir comment les clients se remettent en ligne et rétablissent la continuité des processus d’entreprise. Il s’avère qu’en raison de la panne des points d’accès – l’écran bleu de la mort – la mise à jour ne peut être réalisée à distance et le problème doit donc être résolu manuellement, un point d’accès à la fois. Ce processus devrait prendre plusieurs jours.
- La deuxième question est de savoir ce qui a causé le dysfonctionnement. L’éventail des possibilités va de l’erreur humaine – par exemple un développeur qui aurait téléchargé une mise à jour sans contrôle de qualité suffisant – au scénario complexe et intriguant d’une cyberattaque profonde, préparée à l’avance et impliquant qu’un cybercriminel active une « commande d’apocalypse » ou un « kill switch ».
Face à cette situation, les spécialistes de la cybersécurité du monde entier qui collaborent pour résoudre le problème pourront en apprendre davantage à ce sujet afin de s’assurer que les pannes futures de ce type soient évitées, car nous le savons, aucun acteur de la cybersécurité n’est à l’abri aujourd’hui. »
Pour ne rien rater de l’actualité de la distribution IT & Tech, rejoignez notre page Linkedin ChannelBiz.fr : Le média des revendeurs, intégrateurs et MSP en France