Le 19–20 mai 2026, Railway a subi une panne plateforme d'environ huit heures après que Google Cloud a placé par erreur son compte de production en statut suspendu, ce qui a désactivé l'infrastructure hébergée sur GCP, y compris le tableau de bord, l'API, le plan de contrôle, les bases de données et les instances de calcul.
Bien que les charges de travail sur Railway Metal et AWS soient restées opérationnelles, les proxies edge dépendaient du plan de contrôle hébergé sur Google pour les tables de routage et, lorsque leurs caches ont expiré, la panne s'est propagée rendant toutes les charges de travail inaccessibles et renvoyant des erreurs 404.
La récupération s'est déroulée par étapes après la restauration d'accès par Google, les disques persistants, le réseau et les instances de calcul étant rétablis entre 22:29 UTC et environ 06:14 UTC, tandis que le throttling de GitHub et l'accumulation de déploiements ont provoqué des interruptions supplémentaires des connexions et des builds.
Railway assume la responsabilité des choix architecturaux qui ont permis à l'action d'un unique fournisseur de se propager et expose des mesures prévues pour supprimer la dépendance au plan de contrôle hébergé par Google en transformant le réseau en une véritable mesh, en retirant GCP du chemin critique des données et en étendant les shards de bases de données à haute disponibilité sur AWS et Metal.
Ces évolutions visent à garantir que les services utilisateurs critiques ne dépendent plus d'un seul fournisseur et à réduire le risque d'incidents similaires à l'avenir.