OpenAI, Çarşamba günü gerçekleşen ve şirket tarihindeki en uzun kesintilerden biri olarak kaydedilen büyük aksaklığın, yeni devreye alınan bir telemetri hizmetinden kaynaklandığını duyurdu. Bu kesinti, ChatGPT, Sora ve geliştiriciye yönelik API hizmetlerinde ciddi aksaklıklara yol açtı.
Şirket, yayımladığı son durum raporunda, bu kesintinin bir güvenlik olayı veya yeni bir ürün lansmanı ile ilgili olmadığını, aksine Çarşamba günü devreye alınan Kubernetes metriklerini toplayan bir telemetri hizmetinin sebep olduğunu belirtti. OpenAI, bu durumdan ötürü herkesten özür diledi.
Kubernetes, uygulama paketlerini ve ilişkili dosyaları izole ortamlarda yönetmeye yardımcı olan açık kaynaklı bir platformdur. Yeni telemetri hizmeti, istemeden kaynak yoğun Kubernetes API işlemlerine neden olmuş ve bu da Kubernetes kontrol düzlemini devre dışı bırakmıştır. OpenAI, bu yeni telemetri hizmetinin, şirketin birçok hizmetinin DNS çözümlemesi için kritik öneme sahip olan Kubernetes işlemlerini etkilediğini ifade etti.
OpenAI’nin DNS önbelleklemesi, sorunun tam kapsamının anlaşılmadan önce devam etmesine ve bu nedenle görünürlüğün gecikmesine sebep oldu. Şirket, sorunu müşteriler etkilenmeden birkaç dakika önce tespit ettiklerini ancak aşırı yüklenme nedeniyle Kubernetes sunucularında hızlı bir düzeltme yapamadıklarını açıkladı.
OpenAI, bu olayın birçok sistem ve sürecin aynı anda başarısız olmasının yanı sıra beklenmedik şekillerde etkileşimde bulunmasının sonucunda meydana geldiğini belirtti. Gelecekte benzer olayların yaşanmaması için, altyapı değişikliklerinde daha iyi izleme, aşamalı yayılımda iyileştirmeler ve mühendislerinin Kubernetes API sunucularına her durumda erişimini sağlamak için yeni mekanizmalar geliştirme gibi çeşitli önlemler alacaklarını duyurdu.
Son olarak, OpenAI, bu kesinti için ChatGPT kullanıcılarından özür diledi ve yaşanan aksaklıkların beklentilerinin altında kaldığını kabul etti.