Marquant un état d’événements très inhabituel, Facebook, Instagram, WhatsApp, Messenger, et Oculus VR étaient vers le bas simultanément à travers le monde pour une prolongation période de temps Lundi.
Le réseau social et certaines de ses applications clés ont commencé à afficher des messages d’erreur avant 16h00 UTC. Thé étaient vers le bas jusqu’à ce que 21:05 UTC, quand les choses ont commencé à revenir progressivement à la normale.
L’humanité peut-elle survivre des heures sans le conglomérat de médias sociaux le plus important de notre temps ? Périsse la pensée! Plus sérieusement, comme certains utilisateurs ont souligné sur Twitter, la panne mondiale met-elle en évidence les défis d’un point de défaillance technologique unique aussi dominant ?
Facebook est partout… c’est au-delà des médias sociaux
Ce qui est rapidement devenu clair pour nous chez Catchpoint, c’est le fait que la panne avait un impact sur le temps de chargement des pages de nombreux sites Web populaires qui ne sont pas alimentés par Facebook. Pourquoi? Parce que les publicités Facebook et les balises marketing se trouvent sur presque tous les grands sites Web.
Voici un agrégat des 95e centile de la durée de l’événement de chargement, appelé document terminé, ainsi que la disponibilité et la métrique d’impact du « temps de goulot d’étranglement » Catchpoint du contenu Facebook intégré du site, sur les 100 sites IR les plus importants, tel que mesuré à partir des points de vue externes de l’observabilité active (synthétique) de Catchpoint.
Remarquez la mesure de document complet pointes et se maintient à plus de 20 secondes de plus à 23 h 40 HNE (15 h 40 UTC). Ceux-ci indiquent que les temps de chargement globaux des pages pour les utilisateurs étaient beaucoup plus élevés que la normale.
Les alarmes ont démarré au point de capture lorsque nous avons détecté des pannes de serveur
Ici, à Catchpoint, les alarmes ont commencé à se déclencher vers 15h40 UTC. Ces alarmes résultaient du fait que certains de nos tests HTTP pour les domaines Facebook, WhatsApp, Instagram et Oculus ont commencé à renvoyer l’erreur HTTP 503 (service indisponible). Il est à noter que nous effectuons ce type de suivi dans le cadre d’un processus d’analyse comparative. De cette façon, nous sommes en mesure de fournir des informations sur Internet dans son ensemble – et il est clair que la chute de la famille Facebook a eu un impact considérable sur l’ensemble d’Internet.
En tirant parti de notre ensemble de données historiques, nous constatons généralement que Facebook lui-même est un système très stable avec quelques pannes qui se produisent de temps en temps. L’entreprise a construit un service évolutif, fiable et mondial. Par conséquent, lorsque nous avons vu des alarmes concernant une panne de Facebook, il était facile de déterminer qu’il y avait un problème important.
L’instantané ci-dessous est de Explorateur de données (catchpoint.com). Il montre les pannes de serveur qui nous ont d’abord alerté de la panne de Facebook.
Cinq minutes plus tard, nous avons vu que le TTL des enregistrements DNS de Facebook avait expiré, et la triste vérité s’est imposée… aucun serveur de noms Facebook n’était disponible, et chaque requête DNS vers www facebook.com entraînait une erreur SERVFAIL (c’est-à-dire une requête DNS a échoué car une réponse ne peut pas être donnée).
La capture d’écran suivante est un exemple du message d’erreur que les utilisateurs de Facebook ont vu.
Vous trouverez ci-dessous des exemples des types d’erreurs d’en-tête HTTP 503 vues initialement.
HTTP/2 503
access-control-allow-origin: *
longueur du contenu : 2959
type de contenu : texte/html ;
jeu de caractères=utf-8date : lun. 04 octobre 2021 16:48:36 GMT
statut du proxy : no_server_available ;
Vous pouvez voir qu’au début, il renvoyait une défaillance du serveur. Lorsque les enregistrements DNS ont été initialement mis en cache, Facebook Edge n’a pas pu trouver de serveur proxy en amont dans le cadre de sa configuration de communication.
La prochaine série de captures d’écran montre que lorsque nous avons interrogé les serveurs de domaine de premier niveau de Facebook, ils ne fonctionnaient pas.
Tout jusqu’ici nous a laissé penser que la cause du problème était DNS… Mais l’était-il ?
Une histoire d’échec de badge et de BGP
Beaucoup de spéculations autour de l’incident ont eu lieu sur les plateformes de médias sociaux survivantes.
On ne saura peut-être jamais si le personnel technique de Facebook waussi En effet verrouillé hors de la salle des serveurs et incapable de réparer leurs routeurs. Dans le même temps, il y a du vrai dans cette dernière spéculation : BGP était, en effet, fortement impliqué dans cet incident.
Une plongée profonde dans les données BGP
Facebook gère l’AS 32934. Les réseaux dont il est à l’origine sont généralement stables, comme le montre RIPEstat (RIPEstat – Ui2013/AS32934).
Quelque chose a cependant changé vers 15h40 UTC. À ce moment-là, vous pouvez clairement voir un pic du nombre d’événements BGP.
Voyons ce que les collecteurs de routes publiques ont pu voir par rapport à cela. Nous nous concentrerons sur les données BGP collectées par le collecteur RIS rrc10 déployé au Milan Internet Exchange (MIX) entre 15h00 UTC et 16h00 UTC.
D’après un rapide coup d’œil à l’instantané de 08h00 UTC, l’AS 32934 était à l’origine de 133 réseaux IPv4 et de 216 réseaux IPv6. En regardant les messages de mise à jour, il est facile de repérer que Facebook a retiré les routes pour atteindre huit de ces réseaux IPv4 et quatorze de ces réseaux IPv6 vers 15h40 UTC. C’était exactement le moment où toutes les alertes Catchpoint ont commencé à se déclencher et les gens ont commencé à se plaindre des pannes.
Même s’il ne s’agissait que d’une poignée de réseaux en panne, cet incident démontre que ce n’est pas la quantité de réseaux qui compte.
Certaines des routes retirées étaient liées aux serveurs de noms DNS faisant autorité de Facebook, qui ne pouvaient plus être atteints. Cela a conduit à l’échec des résolutions DNS du monde entier. Finalement, les résolveurs DNS ont été inondés de demandes.
Les serveurs de noms faisant autorité jouent un rôle clé dans la résolution DNS, car ils possèdent des informations sur la façon de résoudre un nom d’hôte spécifique sous leur autorité.
Les véritables causes derrière les retraits du réseau n’ont pas encore été divulguées par l’équipe de Facebook, mais les rumeurs disent que la cause sous-jacente était une routine BGP qui a mal tourné.
Avoir une réponse rapide est la clé, Aussi long Comme Votre badge fonctionne !
Les derniers jours ont été rudes, entre Moules problèmes et aujourd’huil’incident avec Facebook et ses services associés. Ces incidents montrer que le majeur outages se produisent à tout le monde, même les plus grandes entreprises technologiques.
À quelle vitesse vous détectez et atteignez le coeur de ces problèmes sont importantss. Vos runbooks comptent également.
Parfois, la résolution d’une escalade signifie que vous devez vous assurer que vos systèmes sont différents de un autre. jem ce cas, les systèmes de badges vos employés utilisent pour se connecter et régler les problèmes ne devrait jamais être dépendant de la chose que vous essayez de réparer.
Le dépannage dans ces types d’instances est rarement simple. Dans le cas de Facebook, les symptômes étaient des erreurs HTTP et DNS. toutefois, comme nous l’avons prouvé, la cause première était BGP.