Önemli Bilgiler
- Facebook'un teknik sorunları talihsizdi, ancak bu kadar çok birbirine bağlı sisteme dayanmasaydı sorun muhtemelen çok daha hızlı çözülebilirdi.
- Sistem arızalarını tamamen önlemenin bir yolu yoktur, ancak onları daha az olası hale getirmenin yolları vardır.
- Sistemin ne zaman (ne zaman değil, ne zaman) başarısız olacağına ilişkin yedekleme planlarına sahip olmak, 'sinir bozucu' ve 'felaket' arasındaki farkı yaratabilir.
Son Facebook fiyaskosu, birbirine bağlı sistemlerin nasıl başarısız olmaya mahkum olduğunu ve neden onları her şey için kullanmamamız gerektiğini gösteriyor.
Pazartesi günü birkaç saat boyunca Facebook, WhatsApp ve Instagram'ı kaybetmek uygunsuzdu, işletmelere zarar verdi ve bazı durumlarda neredeyse felaketti. Facebook'a göre, bunun nedeni ağ koordinasyon yönlendiricilerindeki yapılandırma değişiklikleriydi.
Makul bir açıklama, ancak bunun gibi tek bir hatanın sadece Facebook'u değil, Facebook'a ait diğer sistemleri de durma noktasına getirebileceği gerçeği biraz endişe verici.
Yanlış bir yönlendirici yapılandırma değişikliği, birden çok hizmetin ve hatta VR kulaklıkların tamamen çalışmayı durdurmasına neden oldu. Bunun da ötesinde, Facebook'un kendi kabulüyle, şirketin veri merkezlerinin nasıl iletişim kurduğu üzerinde kademeli bir etkisi oldu ve tüm hizmetleri durma noktasına getirdi.
GlobalDots'ta kıdemli teknik satış mühendisi Francesco Altomare, Lifewire ile yaptığı bir e-posta röportajında, "Birbirine bağlı sistemlere güvenmek, beraberinde doğal bir sistem ve hatta hizmet arızası riski taşır," dedi.
"Şirketler, bu göz korkutucu riske karşı koymak için SRE (Sistem Güvenilirliği Mühendisliği) ilkesinin yanı sıra, tümü bir sistem altyapısının her katmanında yerleşik olarak bulunan çeşitli yedeklilik düzeyleriyle ilgilenen diğer araçları kullanır."
Neler Yanlış Gidebilir
Böyle bir sistem başarısız olduğunda, genellikle bir şeylerin ters gitmesi için mükemmel bir fırtına gerektirdiğini belirtmekte fayda var. Düşmeyi bekleyen bir kart evi gibi değil, daha çok küçük bir ay büyüklüğündeki bir uzay istasyonundaki açıkta kalan bir termal egzoz portu gibi.
Çoğu şirket, her şeyi kaosa sürükleyebilecek tek şeyin asla olmamasını sağlamak için adımlar atar - ama ne olursa olsun, olabilir.
FastPeopleSearch'ün kurucu ortağı Sally Stevens, "Beklenmeyen arızalar işin bir parçasıdır ve çalışanların ihmali, internet servis sağlayıcısının ağındaki hatalar ve hatta bulut depolama hizmetlerinde sorun yaşanmasından kaynaklanabilir" dedi. bir e-posta röportajı.
"…Sistemi korumak için yedekler, yerinde yönlendirici ve katmanlı erişim gibi gerekli adımlar uygulandığı sürece, bu arızalar pek olası değildir." Bir güvenlik kasası ordusuyla bile, linççinin başarısız olması hala mümkündür.
Birincil temas biçimleri, cihazlar, kapılar vb. gibi şeyleri kontrol eden sistem başarısız olursa, sonuçlar önemli olabilir. Kişilerin ve şirketlerin buna ne kadar güvendiğine bağlı olarak hafif rahatsızlıktan tam felakete kadar.
"Buzdolapları ve ekmek kızartma makineleri gibi en az korunan cihazlardan sisteme bilgisayar korsanlarının girme riski de var" diye ekledi Stevens, "bu da veri hırsızlığına ve fidye yazılımlarına yol açabilir."
Nasıl Hazırlayabiliriz
Bir sistemin asla başarısız olmayacağını garanti etmenin bir yolu yoktur, ancak arıza olasılığını az altmak veya arızayı daha sorunsuz çözmek için atılabilecek adımlar vardır. Arıza güvenliklerini ve karşı önlemleri acil durum planları ve yedekleme sistemleriyle birleştiren iki yaklaşımın bir kombinasyonu ideal olacaktır.
FindPeopleFast'ın kurucusu ve baş teknoloji sorumlusu Daniela Sawyer, "Etkili bir şekilde ele alınan üçüncü taraf ürün ve hizmetlerin yarattığı bu tehlikeleri ortadan kaldırmak için Üçüncü Taraf Risk Yönetimine ilişkin roller ve görevler kesinlikle ana hatlarıyla belirtilmelidir, " dedi. bir e-posta röportajında, "Bu yeni ortamda gelişmek için risk yöneticilerinin böylesine karmaşık bir ekosistemin temel parçalarını kavraması gerekir."
Facebook, WhatsApp ve Instagram'da olanlar talihsizdi ama aynı zamanda umut vericiydi. Birbirine bağlı sistemlere güvenen insanlar, doğru şeyin yanlış gitmesinin her şeyi bozabileceğini anlamalıdır. Ve bu tür aksaklıkları daha az olası ve daha az etkili kılmak için önlemler alınmalı (veya incelenmeli ve iyileştirilmelidir).
Facebook'un durumunda, sorunu yönlendirici sorunları değil, neredeyse tüm ekosisteminin diğer her şeye bağlı olmasıydı. Bu nedenle, Facebook (hizmet) kapalıyken, Facebook (şirket) konuyu organize etmek ve ele almak için çok daha fazla zaman ve enerji harcamak zorunda kaldı. Ya bu kadar köklü, birbirine bağlı bir sistem kullanmasaydı ya da böyle bir kesintiyle başa çıkmak için yedekleme planları olsaydı, düzeltmesi muhtemelen çok daha az zaman alırdı.