Selamat berjumpa kembali dengan tulisan saya dengan tema diatas….
bahasan untuk kali ini kita akan coba membuat prediksi Turnover Karyawan pada suatu perusahaan dengan menggunakan Random Forest dan Okay Fold Cross Validation, mari kita mulai……..
apa sih yang dimaksud dengan make use of turnover???
Worker Turnover adalah istilah yang menggambarkan tingkat karyawan yang meninggalkan perusahaan (baik karena mengundurkan diri, diberhentikan, atau pensiun) dan kemudian digantikan oleh orang baru. Turnover karyawan merupakan salah satu tantangan utama dalam pengelolaan sumber daya manusia pada suatu perusahaan. Tingginya tingkat turnover dapat menimbulkan kerugian bagi perusahaan, baik dari segi biaya maupun stabilitas operasional. Dengan adanya knowledge historis karyawan, perusahaan dapat memanfaatkan teknik knowledge mining untuk memprediksi karyawan yang berpotensi untuk mengundurkan diri/resign. Dengan membangun mannequin prediktif, perusahaan dapat mengambil tindakan preventif untuk mempertahankan karyawan berpotensi.
Identifikasi Masalah
• Bagaimana membangun mannequin prediktif untuk turnover karyawan menggunakan algoritma Information Mining?
• Fitur apa saja yang paling berpengaruh dalam memprediksi keputusan karyawan untuk keluar?
• Seberapa baik akurasi mannequin yang dibangun?
Tujuan Penulisan
– Menerapkan algoritma Random Forest untuk prediksi turnover karyawan.
– Mengevaluasi performa mannequin dengan confusion matrix dan ROC-AUC.
– Mengidentifikasi fitur penting dalam keputusan turnover.
Batasan Masalah
– Dataset yang digunakan adalah dataset publik dari Kaggle, yang diambil dari sumber berikut ini: (https://www.kaggle.com/code/jaimeandrevelasquez/machine-learning-for-predicting-employee-turnover)
– Algoritma yang digunakan terbatas pada Random Forest.
– Evaluasi mannequin dilakukan dengan Okay-Fold Cross-Validation (ok=5).
Manfaat
– Memberikan wawasan kepada perusahaan dalam mendeteksi risiko turnover atau pergantian karyawan dalam kurun waktu tertentu pada suatu perusahaan.
– Meningkatkan pengambilan keputusan berbasis knowledge.
– Sebagai studi kasus penerapan algoritma Information Mining pada knowledge bagian personalia perusahaan
Kita akan coba memberikan sedikit diskusi mengenai Information Mining
Information Mining adalah proses untuk mengekstraksi informasi yang bermakna dari kumpulan knowledge besar dengan tujuan mengidentifikasi pola, tren, atau hubungan tersembunyi yang dapat digunakan dalam pengambilan keputusan. Proses ini merupakan gabungan dari berbagai disiplin ilmu, seperti statistik, pembelajaran mesin (machine studying), kecerdasan buatan, dan sistem foundation knowledge.
Dalam konteks bisnis dan organisasi, Information Mining memberikan keuntungan strategis, seperti membantu perusahaan memahami perilaku pelanggan, meningkatkan efisiensi operasional, dan mengurangi risiko. Salah satu aplikasinya adalah memprediksi kemungkinan karyawan meninggalkan perusahaan (worker turnover), sebagaimana dibahas dalam laporan ini.
Tahapan dalam Information Mining
1. Pembersihan Information (Information Cleansing)
Menghapus atau memperbaiki knowledge yang hilang, duplikat, atau tidak konsisten.
2. Integrasi Information (Information Integration)
Menggabungkan knowledge dari berbagai sumber ke dalam satu repositori terpadu.
3. Seleksi Information (Information Choice)
Memilih knowledge yang relevan untuk proses mining berdasarkan tujuan analisis.
4. Transformasi Information (Information Transformation)
Mengubah knowledge ke dalam format atau skala yang sesuai.
5. Proses Mining (Information Mining)
Menerapkan algoritma untuk menemukan pola atau mannequin dari knowledge.
6. Evaluasi Pola (Sample Analysis)
Mengidentifikasi pola yang benar-benar bermakna dan berguna.
7. Presentasi Hasil (Information Presentation)
Menyajikan hasil dengan cara yang dapat dimengerti, misalnya dengan visualisasi atau laporan.
Jenis Teknik dalam Information Mining
1. Klasifikasi (Classification)
Memprediksi label dari suatu objek, seperti apakah seorang karyawan akan keluar atau tidak.
2. Regresi (Regression)
Memprediksi nilai kontinu, seperti prediksi penjualan.
3. Klastering (Clustering)
Mengelompokkan knowledge ke dalam grup berdasarkan kesamaan.
4. Asosiasi (Affiliation Rule Studying)
Menemukan hubungan atau asosiasi antar variabel, seperti pola pembelian produk.
5. Deteksi Anomali (Anomaly Detection)
Mendeteksi knowledge yang menyimpang dari pola umum.
Penerapan Information Mining dalam Prediksi Turnover karyawan
Dalam tulisan ini, digunakan pendekatan klasifikasi untuk memprediksi apakah seorang karyawan akan meninggalkan perusahaan. Mannequin prediktif dibangun menggunakan algoritma Random Forest, yang dikenal kuat dalam klasifikasi dan mampu menangani knowledge berukuran besar serta kompleks. Teknik ini tidak hanya memberikan akurasi tinggi, tetapi juga dapat menunjukkan fitur mana yang paling berpengaruh dalam keputusan karyawan untuk keluar.
Konsep Dasar Random Forest
Random Forest dibangun berdasarkan prinsip bagging (bootstrap aggregating), yaitu teknik pengambilan sampel knowledge secara acak dengan pengembalian (sampling with alternative) untuk melatih beberapa mannequin secara paralel. Masing-masing mannequin adalah pohon keputusan (determination tree) yang dibangun berdasarkan subset dari knowledge pelatihan dan subset dari fitur.
Setiap pohon dalam Random Forest memberikan satu suara (vote) untuk prediksi kelas (dalam klasifikasi), dan keputusan akhir diambil berdasarkan mayoritas suara (majority voting). Dalam regresi, hasil akhirnya adalah rata-rata dari prediksi semua pohon.
Keunggulan Random Forest
1) Akurasi tinggi
Mengurangi risiko overfitting dibandingkan satu pohon keputusan tunggal.
2) Tahan terhadap outlier dan noise
Karena hasilnya merupakan agregasi dari banyak mannequin.
3) Dapat mengukur pentingnya fitur (function significance)
Memberikan perception terhadap variabel mana yang paling berpengaruh terhadap hasil prediksi.
4) Mudah digunakan
Tidak terlalu sensitif terhadap pengaturan parameter.
Langkah-langkah Kerja Random Forest
1. Dari dataset pelatihan, buat beberapa subset knowledge dengan metode bootstrap sampling.
2. Untuk setiap subset, buat pohon keputusan:
– Pada setiap node, pilih subset acak dari fitur untuk mencari cut up terbaik.
– Lanjutkan proses hingga pohon selesai (bisa diatur maksimal kedalaman atau jumlah sampel minimal).
3. Gabungkan hasil dari semua pohon:
– Untuk klasifikasi maka gunakan majority vote.
– Untuk regresi maka gunakan rata-rata nilai prediksi.
4. Evaluasi hasil menggunakan metrik yang sesuai, seperti akurasi, ROC-AUC, confusion matrix, dll.
Evaluasi Mannequin
Evaluasi mannequin merupakan tahap penting dalam proses knowledge mining dan machine studying. Tujuannya adalah untuk mengukur seberapa baik mannequin yang dibangun dalam memprediksi knowledge yang belum pernah dilihat sebelumnya (knowledge uji), serta memastikan bahwa mannequin tersebut andal dan tidak overfitting terhadap knowledge pelatihan.
Dalam laporan ini, mannequin dievaluasi menggunakan dua metrik utama ayitu Confusion Matrix dan ROC-AUC (Receiver Working Attribute — Space Below Curve).
Confusion Matrix
Confusion matrix adalah tabel yang menunjukkan performa mannequin klasifikasi dengan membandingkan hasil prediksi dengan label sebenarnya. Terdiri dari empat komponen:
• True Constructive (TP) adalah Jumlah kasus positif yang diprediksi benar.
• True Unfavorable (TN) adalah Jumlah kasus negatif yang diprediksi benar.
• False Constructive (FP) adalah Jumlah kasus negatif yang diprediksi sebagai positif.
• False Unfavorable (FN) adalah Jumlah kasus positif yang diprediksi sebagai negatif.
Dari matrix ini, dapat dihitung berbagai metrik evaluasi seperti:
• Akurasi (Accuracy) = (TP + TN) / (TP + TN + FP + FN)
• Presisi (Precision) = TP / (TP + FP)
• Recall (Sensitivity) = TP / (TP + FN)
• F1-Rating = 2 × (Precision × Recall) / (Precision + Recall)
Confusion matrix sangat berguna untuk mengetahui kesalahan spesifik yang dilakukan oleh mannequin dalam pengklasifikasian knowledge.
ROC-AUC (Receiver Working Attribute — Space Below Curve)
ROC adalah kurva yang menggambarkan performa mannequin klasifikasi pada semua ambang batas klasifikasi (threshold). Kurva ini memplot nilai:
• True Constructive Price (TPR) atau Recall di sumbu Y
• False Constructive Price (FPR) di sumbu X
AUC adalah space di bawah kurva ROC. Nilainya berkisar antara 0 hingga 1:
• Nilai AUC = 1 menandakan mannequin sempurna.
• Nilai AUC = 0.5 menunjukkan mannequin tidak lebih baik dari tebakan acak.
ROC-AUC sangat bermanfaat dalam kasus klasifikasi tidak seimbang (imbalanced class), seperti dalam prediksi turnover karyawan, di mana proporsi antara karyawan keluar dan bertahan tidak seimbang.
kita masuk pada pembahasan sesuai kasus yang diambil ya….
Deskripsi Dataset
Dataset yang digunakan dalam penelitian ini berjudul HR Analytics yaitu Worker Turnover dan berasal dari situs publik Kaggle. Dataset ini digunakan untuk membangun mannequin klasifikasi yang dapat memprediksi apakah seorang karyawan akan meninggalkan perusahaan atau tidak.
Dataset ini terdiri dari 14 fitur (kolom) dan terdiri dari 14.999 baris knowledge (observasi). Setiap baris mewakili knowledge seorang karyawan. Adapun atribut-atribut yang tersedia antara lain:
- Proses Preprocessing
Sebelum knowledge dapat digunakan untuk membangun mannequin prediksi, diperlukan tahapan preprocessing atau prapemrosesan knowledge. Tahapan ini sangat penting untuk memastikan bahwa knowledge dalam kondisi bersih, terstruktur, dan sesuai dengan kebutuhan algoritma pembelajaran mesin.
Berikut adalah tahapan-tahapan preprocessing yang dilakukan:
Pemuatan Information
Information diimpor dari file CSV menggunakan pandas dimana dataset memiliki 14 kolom dan 14.999 baris knowledge.
Pengecekan dan Penanganan Lacking Worth
Dataset dicek untuk memastikan tidak ada nilai yang hilang atau tidak legitimate.
Encoding Fitur Kategorikal
Kolom wage dan division merupakan fitur kategorikal yang tidak bisa digunakan langsung oleh algoritma Random Forest. Oleh karena itu, dilakukan encoding:
• wage diubah ke nilai ordinal yaitu low • division diubah ke numerik dengan One-Scorching Encoding.
Pemisahan Fitur dan Goal
Fitur prediktor (X) dipisahkan dari goal (y), yaitu kolom left.
Normalisasi / Standardisasi (opsional)
Karena Random Forest tidak sensitif terhadap skala knowledge, proses normalisasi tidak wajib. Namun, dalam beberapa kasus (misalnya untuk visualisasi), bisa digunakan StandardScaler.
Pembagian Information
Information dibagi ke dalam knowledge pelatihan dan pengujian untuk proses evaluasi awal, serta juga digunakan dalam Okay-Fold Cross-Validation untuk mengevaluasi mannequin secara lebih adil.
Okay-Fold Cross Validation
Untuk menghindari bias pembagian knowledge, digunakan teknik Okay-Fold Cross Validation (misal 5-fold), di mana mannequin dilatih dan diuji secara bergantian di lima subset knowledge yang berbeda.
3.1.Hasil Pelatihan Mannequin
Setelah proses preprocessing selesai, tahap berikutnya adalah pelatihan mannequin menggunakan algoritma Random Forest Classifier. Mannequin ini dipilih karena kemampuannya yang baik dalam menangani knowledge dengan banyak fitur, mencegah overfitting, dan menghasilkan akurasi tinggi pada berbagai jenis masalah klasifikasi.
Pelatihan Mannequin
Mannequin dilatih menggunakan knowledge hasil preprocessing, dengan validasi menggunakan teknik Okay-Fold Cross-Validation sebanyak 5 lipatan. Ini bertujuan untuk menghindari overfitting dan memastikan generalisasi mannequin yang baik.
Kode Program:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score, KFold
mannequin = RandomForestClassifier(n_estimators=100, random_state=42)
kfold = KFold(n_splits=5, shuffle=True, random_state=42)
cv_scores = cross_val_score(mannequin, X, y, cv=kfold, scoring=”accuracy”)
Hasil Cross-Validation (Akurasi Tiap Fold):
Evaluasi Mannequin
Setelah mannequin Random Forest dilatih dan diuji, salah satu metrik evaluasi yang digunakan adalah confusion matrix, yaitu sebuah tabel yang digunakan untuk mengevaluasi kinerja algoritma klasifikasi dengan membandingkan prediksi mannequin terhadap knowledge aktual.
Setelah pelatihan, mannequin dievaluasi menggunakan take a look at set serta metrik-metrik berikut:
Penjelasan Metrik Confusion Matrix adalah sebagai berikut:
• True Unfavorable (TN) = 3211
Artinya Karyawan yang tidak keluar dan berhasil diprediksi tidak keluar oleh mannequin.
• False Constructive (FP) = 7
Karyawan yang sebenarnya tidak keluar, tapi salah diprediksi akan keluar.
• False Unfavorable (FN) = 24
Karyawan yang sebenarnya keluar, tetapi diprediksi tetap oleh mannequin.
• True Constructive (TP) = 988
Karyawan yang benar-benar keluar dan diprediksi keluar oleh mannequin.
Dengan hasil Interpretasi yaitu:
• Mannequin memiliki tingkat akurasi sangat tinggi, dengan kesalahan klasifikasi yang sangat sedikit, yaitu hanya 31 dari 4230 knowledge (7 FP + 24 FN).
• False Unfavorable (FN) yang berjumlah 24 berarti terdapat 24 karyawan yang keluar namun tidak terdeteksi oleh mannequin. Ini penting untuk diperhatikan karena berpotensi menyebabkan kehilangan sumber daya manusia tanpa antisipasi.
• False Constructive (FP) yang hanya 7 menunjukkan bahwa mannequin memberikan peringatan yang tidak legitimate dimana ada 7 karyawan yang diprediksi akan keluar padahal tidak keluar.
Classification Report (Precision, Recall, F1-Rating)
Dari hasil perhitungan confusion matrix akan didapatkan besaran:
• Accuracy (Akurasi) = (TP+TN)/(TP+TN+FP+FN)
= (988 + 3211) / 4230
= 99.26%
• Precision (prediksi keluar) =TP/(TP+FP)
= 988 / (464 + 21)
≈ 99,29%
• Recall (Sensitivitas) = TP/(TP+FN)TP
= 988 / (988 + 24)
≈ 97.62%
• F1-Rating = 2∗(Precision∗Recall)/(Precision+Recall)
= 2 * (0,9929 * 0,9729) / (0,9929 + 0,9729)
= 2 * 0.9659/1.9658
= 1.9318
≈ 98.27%
Confusion matrix menunjukkan bahwa mannequin bekerja sangat baik dalam memprediksi karyawan yang keluar maupun yang tetap tinggal. Nilai akurasi, precision, recall, dan F1-score berada pada rentang yang sangat tinggi, mengindikasikan mannequin ini layak digunakan untuk mendukung pengambilan keputusan dalam manajemen SDM.
ROC Curve dan AUC Rating
ROC curve adalah grafik yang menunjukkan hubungan antara:
• True Constructive Price (TPR) atau Recall, pada sumbu Y.
• False Constructive Price (FPR), pada sumbu X.
tujuannya adalah untuk mengukur kemampuan mannequin dalam membedakan antara kelas positif dan negatif pada berbagai ambang batas (threshold).
• TPR (Recall) = TP / (TP + FN)
• FPR = FP / (FP + TN)
Kurva ROC pada gambar di atas memiliki bentuk yang hampir sempurna, yaitu:
• Naik tajam dari titik (0,0) ke titik (0,1), lalu bergerak horizontal ke kanan.
• Ini menunjukkan bahwa mannequin memiliki True Constructive Price yang tinggi meski dengan False Constructive Price yang sangat rendah.
Nilai AUC (Space Below Curve)
• Nilai AUC = 1.00 adalah hasil splendid.
• AUC mengukur kemampuan mannequin dalam membedakan kelas (dalam hal ini, karyawan keluar atau tidak).
- Mannequin ini memiliki kemampuan sempurna (AUC = 1.00) dalam membedakan antara dua kelas goal.
• Artinya, pada semua threshold yang mungkin, mannequin hampir selalu benar dalam membedakan antara karyawan yang akan keluar dan yang tidak.
• Hal ini sangat menguntungkan bagi sistem pengambilan keputusan seperti personalia, karena mannequin dapat memberikan peringatan yang sangat akurat.
Visualisasi Function Significance (tingkat kepentingan fitur)
Visualisasi Function Significance (tingkat kepentingan fitur) dari mannequin Random Forest Classifier. Visualisasi ini menunjukkan seberapa besar kontribusi masing-masing fitur terhadap keputusan yang dibuat oleh mannequin dalam memprediksi apakah seorang karyawan akan keluar dari perusahaan atau tidak.
Menunjukkan bahwa mannequin mampu membedakan kelas positif dan negatif dengan sangat baik.
Hasil interprestasi dari visualisasi Function Significance adalah sebagia berikut:
• satisfaction_level memiliki nilai significance tertinggi (sekitar 0.34). Ini berarti tingkat kepuasan karyawan adalah indikator paling berpengaruh terhadap keputusan mannequin apakah karyawan akan keluar atau tidak.
• Fitur penting lainnya secara berurutan adalah:
o number_project: Jumlah proyek yang ditangani karyawan.
o time_spend_company: Lama bekerja di perusahaan.
o average_montly_hours: Rata-rata jam kerja per bulan.
o last_evaluation: Nilai evaluasi terakhir.
• Fitur-fitur seperti promotion_last_5years, wage stage, dan work_accident memiliki pengaruh yang sangat kecil terhadap prediksi.
Implikasi pada bisnis perusahaan perlu memperhatikan hal sebagai berikut ini:
1. Fokus pada satisfaction_level sangat penting untuk retensi karyawan. Jika tingkat kepuasan rendah, maka kemungkinan karyawan akan keluar lebih besar.
2. Jumlah proyek dan jam kerja rata-rata juga berdampak besar. Jika terlalu banyak proyek atau beban kerja tinggi, bisa menyebabkan kelelahan dan berujung pada turnover.
3. Durasi kerja di perusahaan menjadi indikator loyalitas; semakin lama, bisa jadi loyal, tapi juga bisa menjadi jenuh jika tak ada perkembangan.
demikianlah hasil bahasan kita kali ini….terima kasih