24 Oca 2025 - 15:06

Yapay Zekâ Modellerine Yönelik Yeni Performans Testi: Humanity’s Last Exam

Yapay zekâ alanında önemli bir gelişme yaşandı. Center for AI Safety (CAIS) ve Scale AI isimli kuruluşlar tarafından geliştirilen yeni bir performans testi, yapay zekâ modellerinin yeteneklerini sınamak üzere tasarlandı. Bu test, en gelişmiş yapay zekâ sistemlerini bile zorlayacak sorular içermektedir.

İsmi “Humanity’s Last Exam” olarak belirlenen bu performans testi, birçok farklı kategoride zorlayıcı sorulara yer vermektedir. Toplamda yaklaşık 3.000 soru barındıran test, matematikten beşeri bilimlere ve doğa bilimlerine kadar geniş bir yelpazede sorular sunmaktadır. Geliştiriciler, testin ciddiyetini artırmak amacıyla grafikler, diyagramlar ve diğer görsel materyalleri de kullanmaktan geri durmamışlardır.

Yapay Zekâ Modellerine Yönelik Yeni Performans Testi: Humanity's Last Exam

Bu performans testinin en dikkat çekici yönü, piyasadaki en iyi yapay zekâ modellerinin bile tüm soruları başarıyla çözemedikleridir. Yapılan araştırmalara göre, mevcut amiral gemisi yapay zekâ sistemleri, bu testte yüzde 100 başarıya ulaşamamışlardır. Örneğin, 2021 yılında gerçekleştirilen matematik odaklı testlerde, erken aşamadaki yapay zekâ modelleri, tam anlamıyla 100 üzerinden 10 puan bile alamamışlardı.

Humanity’s Last Exam’in geliştirilmesi sürecinde, 50’den fazla ülkede 1.000 kadar uzmandan destek alınmıştır. Projeye katkıda bulunanlar arasında birçok araştırmacı ve akademisyen yer almaktadır. Bu durum, bu performans testinin gelecekte yapay zekâ sektörü için önemli bir kıstas olabileceğini göstermektedir.

Testte yer alan bazı örnek soruları incelemek isterseniz, buradaki bağlantıyı kullanabilirsiniz.

Fatih Kara

5408 makale

MalzemeBilimi.Net | Kurucu ve Yönetici

Benzer yazılar

Yapay Zeka

Yapay Zekâ Modellerine Yönelik Yeni Performans Testi: Humanity’s Last Exam

Benzer yazılar

ChatGPT’nin 18+ Yanıt Verebilecek “Yetişkin Modu” İptal Edildi

Google’ın İhanete Uğratan Rekabet: Lyria 3 Pro ile 3 Dakikada Şarkı Üretebilme Özelliği Tanıtıldı

Google, 6 Kat Daha Az Bellek Kullanarak 8 Kat Daha Yüksek Performans Sunan Algoritması TurboQuantı Duyurdu

OpenAI’a Yönelik İntihar Davaları Sonrası Şirketin Yeni Adımı: Güvenlik Politikaları Kamuoyuyla Paylaşıldı

Perplexity CEO’su: Yapay Zekâ Nedeniyle İşten Çıkarılanlar Zaten İşlerini Sevmezdi

Apple’ın Siri İçin iOS 27 Planları Ortaya Çıktı: Sirinin Kendi Uygulaması Olacak!

Bir yanıt yazın Yanıtı iptal et

Sponsor

Yazılar

Sosyal Medya Yönetimi Nasıl Yapılır?

Erkek Spor Takım Elbise Modelleri

Hidrojen Geleceğin Yakıtı Olabilir mi?

Master The Art Of Review With These 8 Tips

How To Handle Every Review Challenge With Ease Using These Tips

Kurumsal

İletişim