Microsoft’un Transformer mimarisi üzerine kurulu Phi-1 dil modeli, etkileyici performansıyla dikkatleri üzerine çekiyor. Phi-1’in arkasındaki ekip, model yığını boyutunu artırmaya yönelik hakim eğilimden farklı olarak, eğitim verilerinin kalitesine önem verdi.
İnternetten alınan “ders kitabı düzeyinde” içerikten oluşan yüksek kaliteli bir veri kümesi kullanan Microsoft ekibi, bilgileri GPT-3.5 kullanarak işledi. 8 adet Nvidia A100 GPU’nun yardımıyla eğitim süreci sadece dört günde tamamlandı.
Microsoft’a göre, parametre sayısını yükseltmek yerine eğitim veri kalitesini artırmaya odaklanmak umut verici sonuçlar çıkardı. Karşılaştırmalı testlerde, Phi-1, %50.6’lık bir doğruluk puanı elde ederek şaşırtıcı bir 175 milyar parametreyle GPT-3.5’in %47’lik performansını geride bıraktı.
Phi-1 hakkındaki araştırma makalesi, mimarisi ve eğitim metodolojisi hakkında ayrıntılı bilgiler sağlayan arXiv’de yayınlandı. Teknik yönleri keşfetmekle ilgilenenler için, makale Phi-1’in gelişimine kapsamlı bir genel bakış sunuyor.
Microsoft’un Phi-1 dil modeli, artan yığın boyutunun gelişmiş performans için gerekli olduğu fikrine meydan okuyor. Phi-1, yüksek kaliteli eğitim verilerine odaklanarak, daha büyük modelleri bile geride bırakarak olağanüstü bir doğruluk sergiledi. Phi-1’in açık kaynak kullanımı, Microsoft’un doğal dil işleme alanını ilerletme taahhüdünü daha da gösteriyor.