## Dataset Hazırlama
Reasoning odaklı RL eğitimi devam ederken, bir sonraki RL turunda SFT verisini toplamak için kontrol noktaları eklemişler. Her kontrol noktasında eğitim verisini birkaç farklı şekilde filtreleyerek formatlamışlar:
— Reasoning Verisi
- Reasoning promptuna uyacak şekilde formatlama,
- Çok uzun paragrafları filtreleme,
- Kod bloklarını filtreleme,
- Cevap içerisinde birden fazla dil ile anlamsız bir metin varsa filtreleme
— Non-Reasoning Verisi:
- DeepSeek-V3’ü eğittikleri veri setindeki kısımların bir kısmını almışlar, basit görevler için (selam, nasılsın vb.) CoT oluşturulmamış.
Gün sonunda, Reasoning için yaklaşık 600k veri, Non-reasoning için yaklaşık 200k veri üreterek toplamda 800k’lık CoT veriseti hazırlamışlar ve bu veri seti ile DeepSeek-V3-Base modelini Advantageous-tune ederek DeepSeek-R1 modelini elde etmişler. Son olarak
Distilled Modeller
Elde ettikleri 800k’lık veri ile open-source daki diğer base ya da instruct modelleri sadece SFT(supervise fine-tune) ederek distilled modelleri oluşturmuşlar. Oluşturulan bu modeller kendilerinden daha başarılı olduğu görülmüş.
DeepSeek-R1, sadece RL kullanılarak reasoning veya başka tasklarda başarılı olunabileceğini bize göstermektedir. Ancak bu başarılarda base modelin de ciddi anlamda önemli olduğu unutulmamalıdır. Bununla birlikte, kalite bir veri kümesinin modellerin başarısını ciddi oranda etkilediğini tekrar bize göstermektedir. LLM’lerin eğitiminde ve başarımında, post-training ve iterative RL süreçleri üzerine yapılacak çalışmaların faydalı olacağı şeklinde yorumlayabiliriz.
Bu çalışmayı ve modeli açık kaynak olarak yayınladıkları için de araştırmacılara kendi adıma teşekkür ederim.
Referanslar
[1] Liang, W., Guo, D., Yang, D., Zhang, H., & Music, J. (2025). DeepSeek-R1: Incentivizing Reasoning Functionality in LLMs through Reinforcement Studying. arXiv. https://doi.org/10.48550/arXiv.2501.12948
[2] Liang, W., Guo, D., Yang, D., Zhang, H., & Music, J. (2024). DeepSeek-V3: A Excessive-Efficiency Combination-of-Specialists Language Mannequin. arXiv. https://doi.org/10.48550/arXiv.2412.19437
[3] Shao, Z., Wang, P., Zhu, Q., Xu, R., & Music, J. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Fashions. arXiv. https://doi.org/10.48550/arXiv.2402.03300