Yapay Zeka
0

Google’ın Gemini Modelini Kandırma Yöntemi: Fun-Tuning

Google’ın Yapay Zekâ Modeli Gemini’yi Kandırma Yöntemi: Fun-Tuning

Google’ın Yapay Zekâ Modeli Gemini’yi Kandırma Yöntemi: Fun-Tuning

Araştırmacılar, Google’ın yapay zekâ modeli Gemini’yi kandırmanın oldukça ilginç bir yolunu keşfetti. Bu süreçte, Gemini’nin kendi “ince ayar” özelliği kullanılarak adeta yapay zekâya kendi silahıyla tuzak kurulmuş oldu. Normal koşullarda etkisiz kalan komut hileleri, bu yaratıcı yöntemle bir anda etkili hâle gelmiş durumda. Bu yöntemin adı ise oldukça eğlenceli: “Fun-Tuning”.

Bu yenilikçi yaklaşım, ABD’deki UC San Diego ve Wisconsin Üniversitesi’nden araştırmacılar tarafından geliştirilmiştir. Yapay zekâ, kendi verdiği geri bildirimlerle kandırılmayı başarmıştır.

  • Yöntemde, etkisiz kalan komut enjeksiyonlarının başına ve sonuna rastgele ifadeler eklenerek saldırılar güçlendirilmiştir.
  • Araştırmacılar, “wandel ! ! ! !” veya “formatted ! ASAP !” gibi ifadelerle çevrelenen saldırı metinlerinin Gemini’nin yanıtlarını manipüle edebildiğini ortaya koymuştur.

Araştırma ekibi, geliştirdikleri yöntemin Gemini 1.5 Flash modelinde %65, Gemini 1.0 Pro modelinde ise %82 oranında başarı sağladığını paylaşmıştır. Ayrıca, aynı saldırıların farklı Gemini modellerinde de benzer şekilde etkili olduğuna dikkat çekilmiştir. Bu başarıda, modelin eğitim sürecinde verdiği geri bildirimlerin doğrudan kullanılması oldukça etkili olmuştur.

Google, bu yöntemle ilgili doğrudan bir açıklama yapmamıştır. Ancak, şirket yaptığı genel açıklamada bu tür saldırılara karşı savunma mekanizmaları geliştirmeyi öncelikli konular arasında gördüğünü ifade etmiştir. Araştırmacılar ise, bu sorunun kolay bir şekilde çözülemeyeceğini belirtmişlerdir. Çünkü saldırının temelinde, Gemini’ın ince ayar özelliğiyle çalışan ve özelleştirilebilirliğini sağlayan yapının yer aldığına dikkat çekilmiş, bu durumun güvenlik açığı oluşturabileceği vurgulanmıştır.

Benzer yazılar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Fill out this field
Fill out this field
Lütfen geçerli bir e-posta adresi yazın.

Sponsor
Yazılar