Yapay zekâ alanında önemli bir gelişme yaşandı. Center for AI Safety (CAIS) ve Scale AI isimli kuruluşlar tarafından geliştirilen yeni bir performans testi, yapay zekâ modellerinin yeteneklerini sınamak üzere tasarlandı. Bu test, en gelişmiş yapay zekâ sistemlerini bile zorlayacak sorular içermektedir.
İsmi “Humanity’s Last Exam” olarak belirlenen bu performans testi, birçok farklı kategoride zorlayıcı sorulara yer vermektedir. Toplamda yaklaşık 3.000 soru barındıran test, matematikten beşeri bilimlere ve doğa bilimlerine kadar geniş bir yelpazede sorular sunmaktadır. Geliştiriciler, testin ciddiyetini artırmak amacıyla grafikler, diyagramlar ve diğer görsel materyalleri de kullanmaktan geri durmamışlardır.
Bu performans testinin en dikkat çekici yönü, piyasadaki en iyi yapay zekâ modellerinin bile tüm soruları başarıyla çözemedikleridir. Yapılan araştırmalara göre, mevcut amiral gemisi yapay zekâ sistemleri, bu testte yüzde 100 başarıya ulaşamamışlardır. Örneğin, 2021 yılında gerçekleştirilen matematik odaklı testlerde, erken aşamadaki yapay zekâ modelleri, tam anlamıyla 100 üzerinden 10 puan bile alamamışlardı.
Humanity’s Last Exam’in geliştirilmesi sürecinde, 50’den fazla ülkede 1.000 kadar uzmandan destek alınmıştır. Projeye katkıda bulunanlar arasında birçok araştırmacı ve akademisyen yer almaktadır. Bu durum, bu performans testinin gelecekte yapay zekâ sektörü için önemli bir kıstas olabileceğini göstermektedir.
Testte yer alan bazı örnek soruları incelemek isterseniz, buradaki bağlantıyı kullanabilirsiniz.