Co (ne)plyne z výpadků Cloudflare?
Dva nedávné globální výpadky Cloudflare opět ukázaly, že ani největší světoví hráči nejsou imunní vůči interním chybám. V obou případech šlo o konfigurační změny, které se rozšířily na celou síť dřív, než se projevil problém – klasický failure mode distribuovaných systémů.
Co (ne)plyne z výpadků Cloudflare?
Dva nedávné globální výpadky Cloudflare opět ukázaly, že ani největší světoví hráči nejsou imunní vůči interním chybám. V obou případech šlo o konfigurační změny, které se rozšířily na celou síť dřív, než se projevil problém – klasický failure mode distribuovaných systémů.
Kdo to pocítil nejvíc?
Nejvíce ohrožené jsou e-shopy a SaaS služby s vysokou závislostí na real-time dostupnosti. Interní data MasterDC ukazují, že u některých klientů došlo po dobu incidentu ke 100% nedostupnosti. U větších e-shopů to může znamenat ztráty v řádu desítek tisíc korun za minutu – konkrétní čísla se ale dramaticky liší podle segmentu, marže a denní doby. Finanční sektor a kritická infrastruktura byly zasaženy méně, většinou díky existujícím multi-vendor řešením a přísnějším regulatorním požadavkům.
Trend je reálný, ale zaslouží kontext
Podle reportu Parametrix vzrostl počet kritických incidentů u top tří cloud providerů (AWS, Azure, GCP) o 18 % v roce 2024 oproti 2023. Důležité ale je, že současně dramaticky roste objem služeb běžících v cloudu a závislost na něm – takže relativní spolehlivost se nemusí zhoršovat tak výrazně, jak absolutní čísla naznačují. Co se ale určitě zhoršuje, je dopad každého jednotlivého výpadku, protože více byznysu závisí na méně providerech.
Multi-cloud není všelék
Klientům, pro které takový výpadek představuje citelné ztráty, se doporučuje zvážení aktivní multi-CDN/multi-cloud strategie. Je ale fér říct, co to obnáší:
- Vyšší provozní náklady – zákazník platí za redundanci, kterou většinu času nevyužije. U menších projektů může roční cena multi-CDN setupu převýšit očekávané ztráty z výpadků.
- Komplexita – debugování problémů napříč providery je výrazně těžší. Klient potřebuje lidi, kteří rozumí více platformám, a unified monitoring, který není triviální postavit.
- Nové failure modes – multi-cloud setup může selhat koordinovaně (společná závislost na DNS, certifikátech, nebo třeba na tom samém podmořském kabelu). Přidává resilience, ale také nové vektory selhání.
Co má smysl pro koho?
Pro velké e-shopy a SaaS s vysokými náklady na výpadek (řádově statisíce Kč/hodinu a více) dává smysl investovat do aktivního multi-CDN s automatickým failoverem a hybridního modelu s lokálním DC jako fallbackem.
Pro střední projekty může být rozumnější pasivní připravenost – mít otestovaný plán B, který aktivujete manuálně, místo plně automatizovaného (a drahého) řešení.
Pro menší projekty je často nejefektivnější přijmout, že občasný výpadek je součást života, a investovat spíš do rychlé komunikace se zákazníky a kompenzačních mechanismů.
Vendor-neutrální nástroje pomáhají, ale nejsou magie
Kubernetes, HAProxy, Nginx nebo BGP routing skutečně usnadňují přenositelnost a snižují vendor lock-in. Zároveň ale přinášejí vlastní provozní komplexitu – Kubernetes cluster vyžaduje netriviální expertízu a sám o sobě může být zdrojem výpadků. Cílem by nemělo být „zbavit se závislostí“ (to nejde), ale vědomě si vybrat, na čem chceme záviset, a mít plán pro případ selhání.
Závěr
Kdo dnes spoléhá pouze na jednoho globálního poskytovatele, přijímá riziko, že jeho další výpadek bude i jeho výpadkem. Jestli je to akceptovatelné riziko, záleží na konkrétním byznysu. Důležité je, aby to bylo vědomé rozhodnutí, ne jen důsledek setrvačnosti.
Autorem komentáře je Jan Skalla, Innovation Tech Lead ve společnosti MasterDC.