Close Menu
    Trending
    • When I Realize That Even the People Who Build AI Don’t Fully Understand How They Make Decisions | by Shravan Kumar | Jun, 2025
    • Reddit Sues AI Startup Anthropic Over Alleged AI Training
    • The Journey from Jupyter to Programmer: A Quick-Start Guide
    • Should You Switch from Scikit-learn to PyTorch for GPU-Accelerated Machine Learning? | by ThamizhElango Natarajan | Jun, 2025
    • Before You Invest, Take These Steps to Build a Strategy That Works
    • 📚 ScholarMate: An AI-Powered Learning Companion for Academic Documents | by ARNAV GOEL | Jun, 2025
    • Redesigning Customer Interactions: Human-AI Collaboration with Agentic AI
    • Want to Monetize Your Hobby? Here’s What You Need to Do.
    Finance StarGate
    • Home
    • Artificial Intelligence
    • AI Technology
    • Data Science
    • Machine Learning
    • Finance
    • Passive Income
    Finance StarGate
    Home»Machine Learning»Dengesiz Veri Setleri ile Makine Öğrenmesi Modelleri Nasıl Çalışır | by Yagiz Bugra Karakollu | Apr, 2025
    Machine Learning

    Dengesiz Veri Setleri ile Makine Öğrenmesi Modelleri Nasıl Çalışır | by Yagiz Bugra Karakollu | Apr, 2025

    FinanceStarGateBy FinanceStarGateApril 15, 2025No Comments3 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email


    Dengesiz veri problemi olarak bilinen sınıf dengesizliği, veri bilimi projeleri çerçevesinde dikkat edilmesi gereken bir sorundur. Sınıflandırma algoritmalarının çoğu, eğitim setlerinin iyi dengelendiğini varsayar. Algoritmaların amacı, genellikle, doğru tahmin oranını maksimize etmektir. Ancak varsayılan bu dengeli dağılım çoğu zaman gerçek hayattaki veri kümelerinde bulunmaz. Sınıflardan biri çok az örnekle temsil edilebilirken, diğer sınıf çok sayıda örnekle temsil edilir. Bu durumda sınıflandırmada sorunlar ortaya çıkabilir. Yani dengesiz veri seti, sınıflandırma problemlerinde farklı sınıflar için eşit sayıda gözlem olmaması durumunu tarif eder.

    Örneğin bir veri seti düşünelim:

    • 15 bin gözlem içersin.
    • Kullanıcıların sahte hesap olup olmadığını tahmin etmeye çalışıyor olalım.
    • Hedef değişkendeki ‘1’ler sahte hesapları, ‘0’lar gerçek kullanıcıları temsil etsin.

    Eğer burada sahte hesaplar ile gerçek kullanıcıların sayıları birbirine eşit değilse (hedef değişkende 0–1 dengesi eşit değilse) dengesiz veri seti ile karşı karşıyayız demektir. Zaten bir düşünecek olursanız, dengesiz veri çoğu sınıflandırma probleminin doğasında var. Sahte hesaplar gerçek hesaplardan daha az olur, biz de bu az gözleme sahip sınıfı tahmin etmeye çalışırız.

    Dengesiz veri seti her zaman drawback olarak karşımıza çıkmayabilir. Sınıflar arası fark küçükse göz ardı edilebilir.

    Peki ama dengesiz veri seti ne zaman bir drawback olarak karşımıza çıkar?

    Accuracy yani doğruluk, modelin doğru tahmin ettiği örneklerin toplam örneğe oranıdır. Ancak doğruluk her zaman güvenilir bir metrik değildir. Özellikle sınıflar dengesizse (örneğin verilerin %95’i “0”, sadece %5’i “1” ise), mannequin sadece “0” sınıfını tahmin ederek %95 doğruluk elde edebilir, ama bu yüksek doğruluk yanıltıcıdır çünkü mannequin azınlık sınıfını tamamen göz ardı etmektedir.

    İşte bu duruma “Accuracy Paradox” yani “Doğruluk Paradoksu” denir.

    Accuracy, tahminlerin yüzde kaçının doğru olduğunu belirtir. Dengesiz veri setlerinde accuracy yüksek çıkar, biz de çok iyi tahmin yaptık diye düşünürüz. İşte bu duruma accuracy paradox denir. Tahmin doğruluğunu gösteren bu metrik dengesiz veri setlerinde anlamsız olabilir. Recall ve precision değerleri önem kazanır.

    Yani, accuracy yüksek fakat recall veya precision düşük çıkıyorsa burada bir dengesizlik var sanırım demelisiniz!

    Örneğim 100 tane gözlem içinde 95 regular işlem, 5 dolandırıcılık işlemi olsun. Burada zaten tüm işlemlerin regular olduğunu belirtirsek accuracy değerimiz yüzde 95 çıkar.

    1. Daha fazla veri toplama: Az gözlem bulunan sınıftaki gözlem sayısı artırılabilir.
    2. Undersampling: Azınlık sınıfta yeteri sayıda veri varsa, çoğunluk sınıfının gözlem sayısı rastgele seçim yapılarak azaltılabilir. Veri boyutu az değilse tercih edilir, bir miktar bilgi kaybı göze alınır.
    3. Oversampling: Kanaatimce undersampling yapılamıyorsa tercih edilmelidir. Overfit’e sebebiyet verme ihtimali çok yüksektir. Azınlık sınıftaki gözlem sayısı yeterli değilse, bu sınıftaki gözlemlerin kopyası oluşturularak çoğunluk sınıf sayısına eşitlenebilir.
    4. Biraz oversampling biraz undersampling: Veri setindeki azınlık sınıftaki gözlem sayısı az ise, oversampling yapılması gerektiyse, önce çoğunluk sınıf için undersampling sonra azınlık sınıf için oversampling uygulanabilir.

    Resampling teknikleri arasında en sık kullanılan yöntem ise SMOTE (Artificial Minority Oversampling Method) olarak bilinir. Klasik veri kopyalama şeklinde hareket etmez. Veri kopyalama modele yeni bilgi vermez.

    • Okay en yakın komşu algoritmasını kullanır.
    • Öncelikle azınlık sınıftan random veri seçer.
    • Seçilen random veri etrafındaki komşuları seçer. Komşu ile seçilen veri arasındaki yerde veri üretir.
    • Bu işlem çoğunluk sınıftaki gözlem sayısına ulaşana dek tekrar eder.

    SMOTE sadece continous verilere uygulanabilirken SMOTE-NC (Artificial Minority Oversampling Method — Nominal Continous) hem nominal hem continous verilere uygulanabiliyor. Bunların dışında ise Borderline-SMOTE, SVM-SMOTE ve ADASYN gibi resampling teknikleri bulunmakta.



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleHow Data Centres Support the Growth Of Online Gaming
    Next Article Phase two of military AI has arrived
    FinanceStarGate

    Related Posts

    Machine Learning

    When I Realize That Even the People Who Build AI Don’t Fully Understand How They Make Decisions | by Shravan Kumar | Jun, 2025

    June 5, 2025
    Machine Learning

    Should You Switch from Scikit-learn to PyTorch for GPU-Accelerated Machine Learning? | by ThamizhElango Natarajan | Jun, 2025

    June 5, 2025
    Machine Learning

    📚 ScholarMate: An AI-Powered Learning Companion for Academic Documents | by ARNAV GOEL | Jun, 2025

    June 4, 2025
    Add A Comment

    Comments are closed.

    Top Posts

    How AI Is Redefining Education and the Future of Work

    April 30, 2025

    Machine Learning Tutorial with Python: from Theory to Practice | by Tani David | Apr, 2025

    April 12, 2025

    Could AI Be the Key to Addressing Upcoming Staffing Shortages?

    May 19, 2025

    Build Your First Machine Learning Model | by Gauravnardia | Apr, 2025

    April 27, 2025

    The Dangers of Deceptive Data Part 2–Base Proportions and Bad Statistics

    May 9, 2025
    Categories
    • AI Technology
    • Artificial Intelligence
    • Data Science
    • Finance
    • Machine Learning
    • Passive Income
    Most Popular

    Make Money on Autopilot With These Passive Income Ideas

    April 24, 2025

    Hierarchical Clustering with Example – Asmamushtaq

    February 8, 2025

    Why planning to achieve financial independence matters more than ever

    April 10, 2025
    Our Picks

    Universal Fine-Tuning Framework (UFTF): A Versatile and Efficient Approach to Fine-Tuning Language Models | by Frank Morales Aguilera | AI Simplified in Plain English | Mar, 2025

    March 3, 2025

    Sama Launches Agentic Capture for Multi-Modal Agentic AI

    February 18, 2025

    Detecting Malicious URLs Using LSTM and Google’s BERT Models

    May 28, 2025
    Categories
    • AI Technology
    • Artificial Intelligence
    • Data Science
    • Finance
    • Machine Learning
    • Passive Income
    • Privacy Policy
    • Disclaimer
    • Terms and Conditions
    • About us
    • Contact us
    Copyright © 2025 Financestargate.com All Rights Reserved.

    Type above and press Enter to search. Press Esc to cancel.