Yayın Tarihi: 14 Ocak 2025
MMLU (Massive Multi-Task Language Understanding), doğal dil işleme (NLP) alanında dil modellerinin çoklu görevlerdeki performansını ölçmek için kullanılan kapsamlı bir benchmark’tır. Yaklaşık 57 farklı görevden oluşan bu test kümesi, metin sınıflandırma, mantık, matematik, okuma anlama gibi çeşitli alanlarda modelin genel dil anlama yeteneğini değerlendirir. MMLU, farklı konularda geniş bir metin yelpazesi sunar ve başarı oranı (accuracy) üzerinden modelin doğru cevap verme yeteneğini ölçer. Bu, modellerin çok yönlü ve genelleştirilebilir yeteneklerini test etmek için idealdir. Örnek görevler arasında metin sınıflandırma, mantık ve akıl yürütme soruları, okuma anlama, matematiksel problem çözme ve çoklu seçim soruları bulunur. MMLU, büyük dil modellerinin çeşitli görevlerdeki performansını karşılaştırmak ve genel dil anlama yeteneklerini değerlendirmek için yaygın olarak kullanılır. Bu benchmark, modellerin sadece belirli bir alanda değil, geniş bir yelpazede ne kadar başarılı olduğunu anlamaya yardımcı olan zorlu ve kapsamlı bir araçtır.