Close Menu
    Trending
    • Creating Smart Forms with Auto-Complete and Validation using AI | by Seungchul Jeff Ha | Jun, 2025
    • Why Knowing Your Customer Drives Smarter Growth (and Higher Profits)
    • Stop Building AI Platforms | Towards Data Science
    • What If Your Portfolio Could Speak for You? | by Lusha Wang | Jun, 2025
    • High Paying, Six Figure Jobs For Recent Graduates: Report
    • What If I had AI in 2018: Rent the Runway Fulfillment Center Optimization
    • YouBot: Understanding YouTube Comments and Chatting Intelligently — An Engineer’s Perspective | by Sercan Teyhani | Jun, 2025
    • Inspiring Quotes From Brian Wilson of The Beach Boys
    Finance StarGate
    • Home
    • Artificial Intelligence
    • AI Technology
    • Data Science
    • Machine Learning
    • Finance
    • Passive Income
    Finance StarGate
    Home»Machine Learning»DeepSeek-R1 İnceleme. Geçtiğimiz haftalarda OpenAI’nın o1–127… | by Ümit | Feb, 2025
    Machine Learning

    DeepSeek-R1 İnceleme. Geçtiğimiz haftalarda OpenAI’nın o1–127… | by Ümit | Feb, 2025

    FinanceStarGateBy FinanceStarGateFebruary 2, 2025No Comments2 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    ## Dataset Hazırlama

    Reasoning odaklı RL eğitimi devam ederken, bir sonraki RL turunda SFT verisini toplamak için kontrol noktaları eklemişler. Her kontrol noktasında eğitim verisini birkaç farklı şekilde filtreleyerek formatlamışlar:

    — Reasoning Verisi

    • Reasoning promptuna uyacak şekilde formatlama,
    • Çok uzun paragrafları filtreleme,
    • Kod bloklarını filtreleme,
    • Cevap içerisinde birden fazla dil ile anlamsız bir metin varsa filtreleme

    — Non-Reasoning Verisi:

    • DeepSeek-V3’ü eğittikleri veri setindeki kısımların bir kısmını almışlar, basit görevler için (selam, nasılsın vb.) CoT oluşturulmamış.

    Gün sonunda, Reasoning için yaklaşık 600k veri, Non-reasoning için yaklaşık 200k veri üreterek toplamda 800k’lık CoT veriseti hazırlamışlar ve bu veri seti ile DeepSeek-V3-Base modelini Advantageous-tune ederek DeepSeek-R1 modelini elde etmişler. Son olarak

    Distilled Modeller

    Elde ettikleri 800k’lık veri ile open-source daki diğer base ya da instruct modelleri sadece SFT(supervise fine-tune) ederek distilled modelleri oluşturmuşlar. Oluşturulan bu modeller kendilerinden daha başarılı olduğu görülmüş.

    DeepSeek-R1, sadece RL kullanılarak reasoning veya başka tasklarda başarılı olunabileceğini bize göstermektedir. Ancak bu başarılarda base modelin de ciddi anlamda önemli olduğu unutulmamalıdır. Bununla birlikte, kalite bir veri kümesinin modellerin başarısını ciddi oranda etkilediğini tekrar bize göstermektedir. LLM’lerin eğitiminde ve başarımında, post-training ve iterative RL süreçleri üzerine yapılacak çalışmaların faydalı olacağı şeklinde yorumlayabiliriz.

    Bu çalışmayı ve modeli açık kaynak olarak yayınladıkları için de araştırmacılara kendi adıma teşekkür ederim.

    Referanslar

    [1] Liang, W., Guo, D., Yang, D., Zhang, H., & Music, J. (2025). DeepSeek-R1: Incentivizing Reasoning Functionality in LLMs through Reinforcement Studying. arXiv. https://doi.org/10.48550/arXiv.2501.12948

    [2] Liang, W., Guo, D., Yang, D., Zhang, H., & Music, J. (2024). DeepSeek-V3: A Excessive-Efficiency Combination-of-Specialists Language Mannequin. arXiv. https://doi.org/10.48550/arXiv.2412.19437

    [3] Shao, Z., Wang, P., Zhu, Q., Xu, R., & Music, J. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Fashions. arXiv. https://doi.org/10.48550/arXiv.2402.03300



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleBrookhaven Researcher’s ‘Exocortex’ for AI (Artificial Imagination)
    Next Article Best Veryfi OCR Alternatives in 2024
    FinanceStarGate

    Related Posts

    Machine Learning

    Creating Smart Forms with Auto-Complete and Validation using AI | by Seungchul Jeff Ha | Jun, 2025

    June 14, 2025
    Machine Learning

    What If Your Portfolio Could Speak for You? | by Lusha Wang | Jun, 2025

    June 14, 2025
    Machine Learning

    YouBot: Understanding YouTube Comments and Chatting Intelligently — An Engineer’s Perspective | by Sercan Teyhani | Jun, 2025

    June 13, 2025
    Add A Comment

    Comments are closed.

    Top Posts

    Understanding the Tech Stack Behind Generative AI

    April 1, 2025

    What Is Open on Easter? Walmart, Whole Foods, Wegmans, More

    April 19, 2025

    Feature Comparison: Leading RPA Workflow Tools

    March 12, 2025

    The Case for Centralized AI Model Inference Serving

    April 2, 2025

    Can Virtual Medical Assistants Handle Insurance Verification & Billing?

    March 6, 2025
    Categories
    • AI Technology
    • Artificial Intelligence
    • Data Science
    • Finance
    • Machine Learning
    • Passive Income
    Most Popular

    Demo for Data Science & Generative AI starting soon! 19/04/2025 @8AM 1st – Harik Visualpath

    April 16, 2025

    Artificial Intelligence Is Extremely Unpredictable | by Zayne Harbison | Apr, 2025

    April 24, 2025

    The Math behind Back-propagation. My Deep Learning journey started during… | by Hiritish Chidambaram N | May, 2025

    May 27, 2025
    Our Picks

    Decision Tree Models | Part 2. Basic of tree, Random Forest, Gradient… | by Wichada Chaiprasertsud | Feb, 2025

    February 5, 2025

    Codie Sanchez’s Contrarian Thinking Announces the Appointment of Marc Hustvedt, Former MrBeast President

    February 28, 2025

    How Data Centres Support the Growth Of Online Gaming

    April 15, 2025
    Categories
    • AI Technology
    • Artificial Intelligence
    • Data Science
    • Finance
    • Machine Learning
    • Passive Income
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2025 Financestargate.com All Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.