
Scale AI, yapay zeka modellerinin performansını ölçmek için SEAL (Safety, Evaluation, Alignment Lab) adını verdiği yeni bir liderlik tablosu duyurdu. Amaç, LMArena gibi mevcut karşılaştırma platformlarına alternatif sunarak daha güvenilir ve kapsamlı bir değerlendirme sistemi oluşturmak.
SEAL, gizli test veri setleri kullanarak modellerin “ezberleme” riskini azaltmayı hedefliyor. Kodlama, mantıksal akıl yürütme, çok-dillilik ve yönerge takibi gibi farklı alanlarda puanlama yapılıyor. Scale, uzmanlar tarafından hazırlanmış özel testlerle topluluk oylamalarına kıyasla daha tarafsız sonuç verdiğini iddia ediyor.
Buna rağmen, sistemin tamamen kapalı testlere dayanması şeffaflık tartışmalarını beraberinde getiriyor. Ayrıca, hangi modellerin seçileceği ve testlerin gerçek dünya kullanımına ne kadar yansıyacağı soruları da gündemde. Eleştirmenler, bu tür tabloların “iyi görünen ama pratikte zayıf” modelleri öne çıkarabileceğini vurguluyor.
Sonuç olarak SEAL, teknik açıdan yenilikçi bir girişim olsa da başarısı, yalnızca puanlamalardaki doğrulukla değil; araştırmacıların, şirketlerin ve kullanıcıların güvenini kazanmasıyla ölçülecek.
Kaynak: bloomberg
