Qwen3-8B-Wikipedia-TR-CPT

Türkçe akıl yürütme ve teknik ifade kalitesini artırmak için hazırlanmış model sürümüdür.

Eğitim Kurgusu

Bu modelde Türkçe düşünme adaptasyonu amacıyla wikimedia/wikipedia verisi ana kaynak olarak kullanılmıştır. Bu modelde Türkçe düşünme adaptasyonu için Continued PreTraining (CPT) uygulanmıştır. Adaptasyon kurgusunda veri bileşiminin yaklaşık %99'u wikimedia/wikipedia tabanlıdır.

Not: Yüzde oranı, modelin tüm tarihsel ön eğitimi değil; CPT aşamasındaki adaptasyon veri karışımını ifade eder.

Teknik Eğitim Ayrıntıları: QLoRA Tabanlı CPT

Bu model, tam-parametreli yeniden ön eğitim yerine QLoRA tabanlı Continued PreTraining (CPT) yaklaşımıyla adapte edilmiştir. Eğitim sürecinde temel model 4-bit olarak yüklenmiş, güncelleme işlemi LoRA adaptörleri üzerinden yapılmıştır. Bu nedenle model kartındaki CPT ifadesi, tam-parametre CPT değil, parametre-verimli QLoRA-CPT adaptasyonu olarak okunmalıdır.

QLoRA yapılandırmasında LoRA katmanları aşağıdaki modüllere uygulanmıştır:

  • q_proj, k_proj, v_proj, o_proj
  • gate_proj, up_proj, down_proj
  • embed_tokens, lm_head

Kullanılan başlıca LoRA ayarları:

  • r = 128
  • lora_alpha = 128
  • use_rslora = True
  • 4-bit model yükleme
  • UnslothTrainer ile CPT eğitimi
  • dataset_text_field = "prompt"

Eğitim verisi, Türkçe Wikipedia içeriklerinden başlık ve makale gövdesi birleştirilerek hazırlanmıştır. Her örnek aşağıdaki metin formatına dönüştürülmüş ve örnek sonuna EOS_TOKEN eklenmiştir:

Vikipedi Makalesi
### Başlık: {title}

### Makale:
{text}<EOS>

Bu kurgu, modele Türkçe ansiklopedik metin dağılımı üzerinde ek dilsel uyum kazandırmayı hedefler. Çalışmanın teknik tanımı bu nedenle Wikipedia tabanlı Türkçe QLoRA-CPT adaptasyonu şeklindedir.

Veri Kaynağı

  • wikimedia/wikipedia (Türkçe içerik odaklı)

Model Amacı

  • Türkçe bağlamda daha tutarlı akıl yürütme
  • Bilgi yoğun sorularda daha düzenli açıklama
  • Türkçe teknik/analitik cevaplarda daha iyi akış

Önemli Not

  • Model, eğitim verisindeki dağılıma bağlı önyargılar taşıyabilir.
  • Kritik alanlarda (hukuk, sağlık, finans vb.) insan uzman kontrolü önerilir.

Lisans

Bu model Apache-2.0 lisansı ile sunulmuştur.

Copyright

Copyright (c) Zero9 Tech

Downloads last month
104
Safetensors
Model size
8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for zero9tech/Qwen3-8B-Wikipedia-TR-CPT

Quantizations
1 model

Dataset used to train zero9tech/Qwen3-8B-Wikipedia-TR-CPT