İzmir 34°C
© 2026 9SN - Son Dakika Haberleri Saniye de Takip Et
Haber Yazılımı: Aladağ Bilişim

Renmin Üniversitesi ve Bytedance'in 8B Diffusion Modeli iLLaDA, Qwen2.5'i Temel Seviyede Geçti

Renmin Üniversitesi ve Bytedance'in geliştirdiği 8 milyar parametreli diffusion modeli iLLaDA, ön eğitimde 12 trilyon token kullanarak Qwen2.5'i temel seviyede geride bıraktı.

Yayınlanma
4 Dk Okuma Süresi

Renmin University ve Bytedance araştırmacıları, ChatGPT’den farklı çalışan 8 milyar parametreli bir dil modeli olan iLLaDAyı tanıttı. Bu model, temel seviyede Qwen2.5 ile eşdeğer performans gösterirken, ince ayar sonrası geride kalıyor. GPT, Claude veya Qwen gibi bilinen yapay zeka dil modellerinin çoğu, metni kelime kelime, soldan sağa ve her yeni token’ın sadece önceki token’lara bağlı olduğu autoregresif yöntemle üretiyor. Buna karşılık, difüzyon dil modelleri farklı bir yol izliyor: Başlangıçta “masked tokens” olarak adlandırılan yer tutucu dizileriyle başlıyor ve bunları aynı anda birçok kez geçerek paralel şekilde iyileştiriyorlar. Bu yöntem, görüntü modellerinin gürültüden resim oluşturmasına benziyor. Her pozisyon, diğer tüm pozisyonlara eş zamanlı olarak dikkat edebiliyor ve böylece süreç çift yönlü ilerliyor. iLLaDA, Google’ın da dahil olduğu bu daha geniş hareketin bir parçası konumunda.

Google DeepMind, Haziran 2026’da DiffusionGemma modelini yayımladı. Bu model, difüzyon yöntemiyle metin üretimini yaklaşık dört kat hızlandırıyor ancak benzer büyüklükteki autoregresif Gemma 4 modeline kıyasla MMLU ve kodlama gibi değerlendirmelerde daha düşük puan alıyor. Google, DiffusionGemma’yı düşük gecikmeli kullanım durumları için öneriyor ancak kalite odaklı üretimde tavsiye etmiyor. DiffusionGemma, 25 milyar parametreli uzman karışımı bir model olan Gemma 4’ün omurgası üzerine kurulmuş ve sadece üretim yöntemi değiştirilerek hız önceliklendirilmiş. Buna karşılık, iLLaDA (improved LLaDA kısaltması), sıfırdan eğitilmiş yoğun 8 milyar parametreli bir model olup kaliteye odaklanıyor. Buradaki temel soru, sıfırdan inşa edilmiş bir difüzyon modelinin autoregresif modellerle rekabet edip edemeyeceği.

iLLaDA’nın Performansı ve Karşılaştırmalar

Modeli geliştiren ekip, iLLaDA’yı 12 trilyon token üzerinde önceden eğitti; bu, selefi LLaDA’nın 2,3 trilyon tokenlık eğitimine kıyasla büyük bir artış. Ayrıca model, 12 epoch boyunca ince ayardan geçirildi. Makaleye göre iLLaDA-Base, özellikle BBH mantık testinde LLaDA’ya göre 21,6 puanlık keskin bir gelişme gösterdi. Ortalama performansı 63,9 puan olup, autoregresif Qwen2.5 7Bnin 63,3 puanını hafifçe geride bırakıyor. Aşağıda bazı önemli değerlendirme sonuçları yer alıyor:

  • MMLU: iLLaDA 74.8, LLaDA 65.9, Dream 69.5, Qwen2.5 71.9
  • BBH: iLLaDA 71.3, LLaDA 49.7, Dream 57.9, Qwen2.5 63.9
  • ARC-C: iLLaDA 60.8, LLaDA 45.9, Dream 59.8, Qwen2.5 51.5
  • Hellaswag: iLLaDA 76.6, LLaDA 70.5, Dream 73.3, Qwen2.5 79.0
  • Matematik ve Bilim GSM8K: iLLaDA 81.9, LLaDA 70.3, Dream 77.2, Qwen2.5 78.9
  • Kodlama HumanEval: iLLaDA 50.0, LLaDA 35.4, Dream 57.9, Qwen2.5 56.7

iLLaDA, rakip difüzyon modeli Dream 7B ile karşılaştırıldığında da üstünlük sağlıyor. Dream, Qwen2.5 tabanlı önceden eğitilmiş bir modelden ince ayar yapılarak oluşturulmuşken, iLLaDA sıfırdan eğitildiği halde ortalama puanı 63,9 iken Dream 61,4’te kalıyor. Dream sadece kodlama testlerinde küçük bir üstünlük gösteriyor. Ancak, iLLaDA’nın instruct (yönergeye dayalı) seviyesinde aralık bulunuyor: iLLaDA-Instruct 67,1 puan alırken, Qwen2.5 7B Instruct 77,1 puana ulaşıyor ve bu farkın büyük kısmı matematik ve kodlama alanlarından kaynaklanıyor. Yazarlar, bunun Qwen2.5’te bulunan ek pekiştirmeli öğrenme hizalamasının iLLaDA’da olmamasından kaynaklandığını belirtiyor. Makalenin ekinde ayrıca iLLaDA’nın zorlayıcı görevlerde mantık döngülerine takılabildiği not ediliyor.

  • MMLU-Pro: iLLaDA 52.3, LLaDA 37.0, Dream 43.3, Qwen2.5 56.3
  • MMLU-Redux: iLLaDA 76.4, LLaDA 68.9, Dream 76.3, Qwen2.5 75.7
  • Matematik GSM8K: iLLaDA 89.0, LLaDA 77.5, Dream 81.0, Qwen2.5 91.6
  • Matematik: iLLaDA 56.7, LLaDA 42.2, Dream 39.2, Qwen2.5 75.5
  • Kodlama HumanEval: iLLaDA 65.9, LLaDA 49.4, Dream 55.5, Qwen2.5 84.8
  • Kodlama MBPP: iLLaDA 58.0, LLaDA 41.0, Dream 58.8, Qwen2.5 79.2
  • Ortalama: iLLaDA 67.1, LLaDA 54.5, Dream 60.2, Qwen2.5 77.1

Haberin Editörü: Kemal CİHAN

Kaynak: Haber Merkezi

İlgili Konular: