Panique mondiale - CrowdStrike et Microsoft derrière des pannes majeures
Le monde de la technologie a été secoué ce vendredi par une série de pannes majeures qui ont affecté des millions de personnes à travers le globe.
Au cœur de cette tempête numérique se trouvent deux géants de l'industrie, CrowdStrike, une entreprise de cybersécurité, et Microsoft, le mastodonte de l'informatique. Alors que les utilisateurs tentent de comprendre ce qui s'est passé, les deux sociétés se renvoient la balle quant à la responsabilité de ces incidents sans précédent.
CrowdStrike: une mise à jour qui tourne mal
Tout a commencé lorsque CrowdStrike, une firme spécialisée dans la protection des systèmes critiques, a déployé une mise à jour de son logiciel Falcon Sensor. Cette update, censée renforcer la sécurité, a eu l'effet inverse, des écrans bleus de la mort (BSOD) ont commencé à apparaître sur les ordinateurs équipés de Windows, entraînant des plantages en cascade. Le phénomène a d'abord touché l'Australie avant de se propager à travers le monde, suivant le mouvement du soleil. Des chaînes de télévision, des centres d'appels d'urgence et même les Jeux Olympiques de Paris ont été impactés. Les banques et les systèmes financiers de nombreux pays, comme l'Inde, l'Afrique du Sud ou encore la Thaïlande, ont également été mis à genoux par ces crashs informatiques soudains. Les compagnies aériennes, déjà peu réputées pour leur agilité technologique, ont été particulièrement touchées. American Airlines, United, Delta et Frontier figurent parmi les transporteurs américains qui ont été submergés par les problèmes ce vendredi matin.
Résolution manuelle
Un ingénieur de CrowdStrike a posté sur le subreddit officiel de l'entreprise une solution de contournement qui implique de démarrer les systèmes Windows affectés en mode sans échec ou dans l'environnement de récupération, de naviguer jusqu'à un répertoire spécifique du logiciel, de supprimer un fichier .sys et de redémarrer. Si cette méthode fonctionne, elle ne peut malheureusement pas être déployée via un push réseau, ce qui signifie qu'un travail manuel conséquent reste à accomplir.
Excuses officielles
George Kurtz, le PDG de CrowdStrike, a reconnu sur X que l'entreprise travaillait sur "un défaut trouvé dans une mise à jour de contenu unique pour les hôtes Windows", précisant que celles sur Mac et Linux n'étaient pas concernés.
"Il ne s'agit pas d'un incident de sécurité ou d'une cyberattaque. Le problème a été identifié, isolé et un correctif a été déployé", a-t-il écrit.
Sur le plateau de l'émission Today Show de la chaîne américaine NBC, l’intéressé s'est dit "profondément désolé pour l'impact causé aux clients".
George Kurtz était le directeur technologique de McAfee en avril 2010 lorsque cette société avait envoyé une mise à jour qui avait supprimé un fichier majeur de Windows XP, provoquant des pannes généralisées et nécessitant une réparation système par système.
Microsoft également pointé du doigt
Comme si cela ne suffisait pas, Microsoft a également connu des perturbations dans la nuit de jeudi à vendredi, dans ce qui semble être une terrible coïncidence. Plusieurs services Azure sont tombés en panne jeudi soir. La cause invoquée étant "un workflow de gestion de cluster backend qui a déployé un changement de configuration causant le blocage de son accès entre un sous-ensemble de clusters Azure Storage et les ressources de calcul.
Les reportages sur ces incidents ont jusqu'à présent blâmé soit Microsoft, soit CrowdStrike, soit un mélange peu clair des deux, comme responsables des diverses pannes. Cela semble inévitable, étant donné que tous les problèmes se produisent sur une seule plateforme, Windows. La firme de Redmond a d'ailleurs publié une prise de conscience concernant le problème des BSOD liés à CrowdStrike sur les machines virtuelles exécutant le système d’exploitation. L'entreprise a fréquemment mis à jour ce bulletin vendredi, proposant un correctif qui pourrait surprendre les vétérans de l'informatique.
"Nous avons reçu des commentaires de clients indiquant que plusieurs redémarrages (jusqu'à 15 ont été signalés) peuvent être nécessaires, mais dans l'ensemble, les retours indiquent que ces derniers constituent une étape de dépannage efficace à ce stade", a écrit Microsoft.
Alternativement, la firme recommande aux clients possédant une sauvegarde antérieure au 18 juillet de la restaurer, ou de connecter le disque du système d'exploitation à une machine virtuelle de réparation pour supprimer le fichier (Windows/System32/Drivers/CrowdStrike/C00000291*.sys) à l'origine de la boucle de démarrage.
Un consultant en sécurité a décrit ces doubles défaillances comme "la plus grande panne informatique de l'histoire", affirmant que "c'est en gros ce que nous redoutions tous avec le bug de l'an 2000, sauf que cette fois, c'est réellement arrivé".
L'impact sur les compagnies aériennes
Plusieurs compagnies ont déclaré qu'elles reprenaient certains vols, mais s'attendaient à ce que les perturbations se poursuivent tout au long de la journée de vendredi, et avaient émis des dérogations pour permettre aux clients de modifier leurs plans de voyage. Cette série de pannes sans précédent soulève de nombreuses questions sur la fiabilité et la sécurité de nos systèmes informatiques. Alors que CrowdStrike et Microsoft tentent de résoudre les problèmes et de rassurer leurs clients, il est clair que cet incident aura des répercussions durables sur la confiance des utilisateurs envers ces géants de la tech. Il est également révélateur de la fragilité de notre monde hyperconnecté, où une simple mise à jour logicielle peut avoir des conséquences catastrophiques à l'échelle mondiale. Les entreprises et les gouvernements devront tirer les leçons de cet épisode pour renforcer la résilience de leurs infrastructures numériques face aux imprévus.
Enfin, cet événement met en lumière l'importance cruciale de la cybersécurité dans notre société moderne. Alors que nous dépendons de plus en plus des technologies de l'information, il est vital de disposer de systèmes robustes et fiables pour protéger nos données et nos activités. Les acteurs du secteur ont une responsabilité immense dans ce domaine et devront redoubler d'efforts pour regagner la confiance des utilisateurs après cette panne historique.
Des têtes vont tomber, se planter à ce niveau sur une mise à jour, c'est juste incroyable. Et le coup de 16 redémarrages, j'étais pas prêt 😂