Yapay Zeka
0

Yapay Zekâ Testlerinde Super Mario Bros. ile Yeni Dönem

Yapay Zekâ Testlerinde Yeni Bir Dönem: Super Mario Bros.

Yapay zekâ modelleri, sürekli olarak gelişen teknolojik bir alandır ve bu modellerin performansları, piyasalara sürülmeden önce ve sonrasında çeşitli testlerle değerlendirilmektedir. Bu testler için genellikle oyunlar kullanılmakta. Örneğin, geçtiğimiz hafta Anthropic’in Claude modeli, ikonik oyun Pokemon ile sınanmıştı. Şimdi ise ABD’de bulunan Kaliforniya Üniversitesi San Diego’daki Hao AI Lab isimli organizasyondan araştırmacılar, yapay zekâları test etmek için yepyeni bir oyun seçtiler: Super Mario Bros.

Test Sonuçları: Claude 3.7, GPT-4o’yu Geride Bıraktı

Bu testlerde, Super Mario Bros. kullanılarak birçok farklı yapay zekâ modelinin benchmark testleri gerçekleştirildi. Test edilen modeller arasında OpenAI’ın ChatGPT’ye güç veren GPT-4o, Anthropic’in Claude 3.7 ve 3.5 modelleri ile Google’ın Gemini 1.5 Pro modeli yer aldı. Sonuçlar, en yüksek performansı Claude 3.7’nin gösterdiğini ortaya koydu. Onu sırasıyla Claude 3.5 ve Gemini 1.5 Pro izledi. Bununla birlikte, GPT-4o diğer modellere kıyasla en düşük performansı sergileyerek zor anlar yaşadı.

Kullanılan Super Mario Bros. versiyonu, 1985’teki orijinalinden biraz daha farklıydı. Testler için bir emülatör kullanıldı ve aynı zamanda GamingAgent adı verilen bir framework ile entegre olarak çalışıldı. Bu sistem, oyunun yapay zekâ modelleri tarafından kontrol edilmesine olanak tanıdı. Oyun sırasında her bir modelin nasıl tepkiler vereceği, karmaşık manevraları öğrenme yetenekleri ve oyun stratejileri geliştirme becerileri test edildi.

Daha ilginç bir bulgu ise OpenAI’ın mantık yürüten o1 modelinin, GPT-4o gibi mantık yürüten kategorisine dâhil edilmeyen diğer modellere göre daha kötü performans göstermesiydi. Genellikle bu tür modeller, sorunları adım adım düşünerek çözme kabiliyetleri ile diğer modellere göre üstünlük gösteriyor olsalar da, Super Mario Bros. testinde bu durum geçerli olmadı. Bunun muhtemel nedeni, mantık modellerinin eylemlerini gerçekleştirmek için bir miktar zamana ihtiyaç duyması ve düşünme süreçlerinin daha yavaş işlemesi. Bu yüzden, gerçek zamanlı olarak hızlı aksiyon alma yetenekleri, normal dil modellerine göre kısıtlı kalıyor.

Benzer yazılar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Fill out this field
Fill out this field
Lütfen geçerli bir e-posta adresi yazın.

Sponsor
Yazılar