Close Menu
    Trending
    • Mommies, Nannies, Au Pairs, and Me: The End Of Being A SAHD
    • Building Essential Leadership Skills in Franchising
    • History of Artificial Intelligence: Key Milestones That Shaped the Future | by amol pawar | softAai Blogs | Jun, 2025
    • FedEx Deploys Hellebrekers Robotic Sorting Arm in Germany
    • Call Klarna’s AI Hotline and Talk to an AI Clone of Its CEO
    • A First-Principles Guide to Multilingual Sentence Embeddings | by Tharunika L | Jun, 2025
    • Google, Spotify Down in a Massive Outage Affecting Thousands
    • Prediksi Kualitas Anggur dengan Random Forest — Panduan Lengkap dengan Python | by Gilang Andhika | Jun, 2025
    Finance StarGate
    • Home
    • Artificial Intelligence
    • AI Technology
    • Data Science
    • Machine Learning
    • Finance
    • Passive Income
    Finance StarGate
    Home»Machine Learning»DeepSeek-R1 İnceleme. Geçtiğimiz haftalarda OpenAI’nın o1–127… | by Ümit | Feb, 2025
    Machine Learning

    DeepSeek-R1 İnceleme. Geçtiğimiz haftalarda OpenAI’nın o1–127… | by Ümit | Feb, 2025

    FinanceStarGateBy FinanceStarGateFebruary 2, 2025No Comments2 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    ## Dataset Hazırlama

    Reasoning odaklı RL eğitimi devam ederken, bir sonraki RL turunda SFT verisini toplamak için kontrol noktaları eklemişler. Her kontrol noktasında eğitim verisini birkaç farklı şekilde filtreleyerek formatlamışlar:

    — Reasoning Verisi

    • Reasoning promptuna uyacak şekilde formatlama,
    • Çok uzun paragrafları filtreleme,
    • Kod bloklarını filtreleme,
    • Cevap içerisinde birden fazla dil ile anlamsız bir metin varsa filtreleme

    — Non-Reasoning Verisi:

    • DeepSeek-V3’ü eğittikleri veri setindeki kısımların bir kısmını almışlar, basit görevler için (selam, nasılsın vb.) CoT oluşturulmamış.

    Gün sonunda, Reasoning için yaklaşık 600k veri, Non-reasoning için yaklaşık 200k veri üreterek toplamda 800k’lık CoT veriseti hazırlamışlar ve bu veri seti ile DeepSeek-V3-Base modelini Advantageous-tune ederek DeepSeek-R1 modelini elde etmişler. Son olarak

    Distilled Modeller

    Elde ettikleri 800k’lık veri ile open-source daki diğer base ya da instruct modelleri sadece SFT(supervise fine-tune) ederek distilled modelleri oluşturmuşlar. Oluşturulan bu modeller kendilerinden daha başarılı olduğu görülmüş.

    DeepSeek-R1, sadece RL kullanılarak reasoning veya başka tasklarda başarılı olunabileceğini bize göstermektedir. Ancak bu başarılarda base modelin de ciddi anlamda önemli olduğu unutulmamalıdır. Bununla birlikte, kalite bir veri kümesinin modellerin başarısını ciddi oranda etkilediğini tekrar bize göstermektedir. LLM’lerin eğitiminde ve başarımında, post-training ve iterative RL süreçleri üzerine yapılacak çalışmaların faydalı olacağı şeklinde yorumlayabiliriz.

    Bu çalışmayı ve modeli açık kaynak olarak yayınladıkları için de araştırmacılara kendi adıma teşekkür ederim.

    Referanslar

    [1] Liang, W., Guo, D., Yang, D., Zhang, H., & Music, J. (2025). DeepSeek-R1: Incentivizing Reasoning Functionality in LLMs through Reinforcement Studying. arXiv. https://doi.org/10.48550/arXiv.2501.12948

    [2] Liang, W., Guo, D., Yang, D., Zhang, H., & Music, J. (2024). DeepSeek-V3: A Excessive-Efficiency Combination-of-Specialists Language Mannequin. arXiv. https://doi.org/10.48550/arXiv.2412.19437

    [3] Shao, Z., Wang, P., Zhu, Q., Xu, R., & Music, J. (2024). DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Fashions. arXiv. https://doi.org/10.48550/arXiv.2402.03300



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleBrookhaven Researcher’s ‘Exocortex’ for AI (Artificial Imagination)
    Next Article Best Veryfi OCR Alternatives in 2024
    FinanceStarGate

    Related Posts

    Machine Learning

    History of Artificial Intelligence: Key Milestones That Shaped the Future | by amol pawar | softAai Blogs | Jun, 2025

    June 13, 2025
    Machine Learning

    A First-Principles Guide to Multilingual Sentence Embeddings | by Tharunika L | Jun, 2025

    June 13, 2025
    Machine Learning

    Prediksi Kualitas Anggur dengan Random Forest — Panduan Lengkap dengan Python | by Gilang Andhika | Jun, 2025

    June 13, 2025
    Add A Comment

    Comments are closed.

    Top Posts

    Generative Imaging AI Will Use Game Engines and Synthetic Data to Train Models

    February 19, 2025

    By putting AI into everything, Google wants to make it invisible 

    May 21, 2025

    16×16: The Little Squares That Rewrote How Machines See | by Av Akanksh | Apr, 2025

    April 6, 2025

    Questions to Ask Before Creating a Machine Learning Model | by Karim Samir | simplifann | Mar, 2025

    March 30, 2025

    Daniela Rus wins John Scott Award | MIT News

    February 15, 2025
    Categories
    • AI Technology
    • Artificial Intelligence
    • Data Science
    • Finance
    • Machine Learning
    • Passive Income
    Most Popular

    How I Built Business-Automating Workflows with AI Agents

    May 7, 2025

    Survey: Big AI Investments at Odds with Lack of Testing in Generative AI Development

    March 27, 2025

    Confront Underperforming Employees With Confidence By Following This Guide to Effective Accountability

    March 25, 2025
    Our Picks

    Lawn Care CEO’s Tips for Customer Relationships

    May 1, 2025

    Trade Wars Could Be What The Housing Market Needs To Heat Up

    February 3, 2025

    Artificial Intelligence Is Extremely Unpredictable | by Zayne Harbison | Apr, 2025

    April 24, 2025
    Categories
    • AI Technology
    • Artificial Intelligence
    • Data Science
    • Finance
    • Machine Learning
    • Passive Income
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2025 Financestargate.com All Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.