DeepSeek-R1 İnceleme. Geçtiğimiz haftalarda OpenAI’nın o1–127… | by Ümit

## Dataset Hazırlama

Reasoning odaklı RL eğitimi devam ederken, bir sonraki RL turunda SFT verisini toplamak için kontrol noktaları eklemişler. Her kontrol noktasında eğitim verisini birkaç farklı şekilde filtreleyerek formatlamışlar:

— Reasoning Verisi

Reasoning promptuna uyacak şekilde formatlama,
Çok uzun paragrafları filtreleme,
Kod bloklarını filtreleme,
Cevap içerisinde birden fazla dil ile anlamsız bir metin varsa filtreleme

— Non-Reasoning Verisi:

DeepSeek-V3’ü eğittikleri veri setindeki kısımların bir kısmını almışlar, basit görevler için (selam, nasılsın vb.) CoT oluşturulmamış.

Gün sonunda, Reasoning için yaklaşık 600k veri, Non-reasoning için yaklaşık 200k veri üreterek toplamda 800k’lık CoT veriseti hazırlamışlar ve bu veri seti ile DeepSeek-V3-Base modelini Advantageous-tune ederek DeepSeek-R1 modelini elde etmişler. Son olarak

Distilled Modeller

Elde ettikleri 800k’lık veri ile open-source daki diğer base ya da instruct modelleri sadece SFT(supervise fine-tune) ederek distilled modelleri oluşturmuşlar. Oluşturulan bu modeller kendilerinden daha başarılı olduğu görülmüş.

DeepSeek-R1, sadece RL kullanılarak reasoning veya başka tasklarda başarılı olunabileceğini bize göstermektedir. Ancak bu başarılarda base modelin de ciddi anlamda önemli olduğu unutulmamalıdır. Bununla birlikte, kalite bir veri kümesinin modellerin başarısını ciddi oranda etkilediğini tekrar bize göstermektedir. LLM’lerin eğitiminde ve başarımında, post-training ve iterative RL süreçleri üzerine yapılacak çalışmaların faydalı olacağı şeklinde yorumlayabiliriz.

Bu çalışmayı ve modeli açık kaynak olarak yayınladıkları için de araştırmacılara kendi adıma teşekkür ederim.

Referanslar

[1] Liang, W., Guo, D., Yang, D., Zhang, H., & Music, J. (2025). DeepSeek-R1: Incentivizing Reasoning Functionality in LLMs through Reinforcement Studying. arXiv. https://doi.org/10.48550/arXiv.2501.12948

[2] Liang, W., Guo, D., Yang, D., Zhang, H., & Music, J. (2024). DeepSeek-V3: A Excessive-Efficiency Combination-of-Specialists Language Mannequin. arXiv. https://doi.org/10.48550/arXiv.2412.19437

[3] Shao, Z., Wang, P., Zhu, Q., Xu, R., & Music, J. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Fashions. arXiv. https://doi.org/10.48550/arXiv.2402.03300

Source link

Creating Smart Forms with Auto-Complete and Validation using AI | by Seungchul Jeff Ha | Jun, 2025

What If Your Portfolio Could Speak for You? | by Lusha Wang | Jun, 2025

YouBot: Understanding YouTube Comments and Chatting Intelligently — An Engineer’s Perspective | by Sercan Teyhani | Jun, 2025

Understanding the Tech Stack Behind Generative AI

What Is Open on Easter? Walmart, Whole Foods, Wegmans, More

Feature Comparison: Leading RPA Workflow Tools

The Case for Centralized AI Model Inference Serving

Can Virtual Medical Assistants Handle Insurance Verification & Billing?

Most Popular

Demo for Data Science & Generative AI starting soon! 19/04/2025 @8AM 1st – Harik Visualpath

Artificial Intelligence Is Extremely Unpredictable | by Zayne Harbison | Apr, 2025

The Math behind Back-propagation. My Deep Learning journey started during… | by Hiritish Chidambaram N | May, 2025

Our Picks

Decision Tree Models | Part 2. Basic of tree, Random Forest, Gradient… | by Wichada Chaiprasertsud | Feb, 2025

Codie Sanchez’s Contrarian Thinking Announces the Appointment of Marc Hustvedt, Former MrBeast President

How Data Centres Support the Growth Of Online Gaming

DeepSeek-R1 İnceleme. Geçtiğimiz haftalarda OpenAI’nın o1–127… | by Ümit | Feb, 2025

Distilled Modeller

Referanslar

Related Posts