Google’ın Yapay Zekâ Modeli Gemini’yi Kandırma Yöntemi: Fun-Tuning
Araştırmacılar, Google’ın yapay zekâ modeli Gemini’yi kandırmanın oldukça ilginç bir yolunu keşfetti. Bu süreçte, Gemini’nin kendi “ince ayar” özelliği kullanılarak adeta yapay zekâya kendi silahıyla tuzak kurulmuş oldu. Normal koşullarda etkisiz kalan komut hileleri, bu yaratıcı yöntemle bir anda etkili hâle gelmiş durumda. Bu yöntemin adı ise oldukça eğlenceli: “Fun-Tuning”.
Bu yenilikçi yaklaşım, ABD’deki UC San Diego ve Wisconsin Üniversitesi’nden araştırmacılar tarafından geliştirilmiştir. Yapay zekâ, kendi verdiği geri bildirimlerle kandırılmayı başarmıştır.
- Yöntemde, etkisiz kalan komut enjeksiyonlarının başına ve sonuna rastgele ifadeler eklenerek saldırılar güçlendirilmiştir.
- Araştırmacılar, “wandel ! ! ! !” veya “formatted ! ASAP !” gibi ifadelerle çevrelenen saldırı metinlerinin Gemini’nin yanıtlarını manipüle edebildiğini ortaya koymuştur.
Araştırma ekibi, geliştirdikleri yöntemin Gemini 1.5 Flash modelinde %65, Gemini 1.0 Pro modelinde ise %82 oranında başarı sağladığını paylaşmıştır. Ayrıca, aynı saldırıların farklı Gemini modellerinde de benzer şekilde etkili olduğuna dikkat çekilmiştir. Bu başarıda, modelin eğitim sürecinde verdiği geri bildirimlerin doğrudan kullanılması oldukça etkili olmuştur.
Google, bu yöntemle ilgili doğrudan bir açıklama yapmamıştır. Ancak, şirket yaptığı genel açıklamada bu tür saldırılara karşı savunma mekanizmaları geliştirmeyi öncelikli konular arasında gördüğünü ifade etmiştir. Araştırmacılar ise, bu sorunun kolay bir şekilde çözülemeyeceğini belirtmişlerdir. Çünkü saldırının temelinde, Gemini’ın ince ayar özelliğiyle çalışan ve özelleştirilebilirliğini sağlayan yapının yer aldığına dikkat çekilmiş, bu durumun güvenlik açığı oluşturabileceği vurgulanmıştır.