Verilerin çeşitli kaynaklardan alınması ve toplu veri elde etme sürecidir.Bu veriler CSV,XML,JSON,Net Scrapping,API,SQL gibi yerler veya araçlarla elde edilebilir.
Bu süreç verinin incelenmesini kapsar.Verini boyutu incelenir eksik değer tespiti oranı gibi değerler çıkarılır.
Temel metrikler hesaplanır(Ortalama,Medyan,Standart Sapma) veriler görselleştirlir veri hakkında analiz yapılır.
Bu aşamada eksik veriler işlenir.Aykırı değerler tespit edilip işlenir.
Yinelenen kayıtlar temizlenir.Veri tipleri düzenlenir ve standartizasyon yapılır.
Kategorik veriler sayısallaştırılır.Sayısal verilerin standartizasyonu ve normalizasyonu yapılır.Tarih-Zaman verileri işlenir.Metin verileri vektörleştirilir.
Var olan özellikleri kullanarak yeni özellikler türetmektir.Özellikler arasındaki etkileşimlerden yararlanılır.
İlk 5 adımda yapılan işlemler sonucu eldeki veriyi eğitim ve take a look at olarak ayırmamız gerekiyor eğitim kısmını ML modeline vererek mannequin eğitimini gerçekleştirip sonra da eldeki take a look at verisiyle mannequin üzerinde değerlendirmeler yapılır.
Veride bir sınıftan çok fazla varsa diğer modelleri görmezden gelebilir veya çok olan sınıfı ağırlık olarak alabilir bunun için dengeleme yapılması gerekir.Bunun için Undersampling(Alt Örnekleme) ve Oversampling(Aşırı Örnekleme) yapılır ama bunlar yapılırken alt örneklemede fazla olan sınıftaki veriler azaltılır bu da bilgi kaybına neden olabilir aynı şekil aşırı örneklemede az olan sınıf kopyalanır bu da Overfitting(Aşırı Öğrenme) neden olabilir.Başka bir çözümde SMOTE(Sentetik Veri Üretme) yapılabilir.
ML modellerinden veriye en uygun olanına bakılır önce verinin Regresyon,Sınıflandırma,Kümeleme …. olduğuna bakılır.Daha sonra seçilen türe göre ML modelleri denenip take a look at edilir en iyi sonuç veren mannequin seçilir.Hehangi bir downside için en iyi mannequin yoktur.En iyi ML modelini seçmek için verinin modeller üzerinde eğitilip take a look at edilmesi gerekir ve en sonunda modeller karşılaştırılarak en iyi modele karar verilir.