Laptop computer hadir dalam berbagai merek, spesifikasi, dan tentu saja — harga. Tapi, pernahkah kamu bertanya-tanya, apa sebenarnya yang membuat satu laptop computer lebih mahal dari yang lain? Lewat proyek analisis information ini, saya mencoba menjawab pertanyaan tersebut dengan membangun mannequin prediksi harga laptop computer berdasarkan spesifikasinya menggunakan algoritma Random Forest Regression.
Apa Tujuan Proyek Ini?
Proyek ini bertujuan membantu pengguna (dan mungkin penjual!) dalam memahami faktor-faktor utama yang memengaruhi harga laptop computer. Dengan prediksi harga yang cukup akurat, kita bisa mengambil keputusan pembelian dengan lebih percaya diri.
Information
Information dikumpulkan dari situs e-commerce Enterkomputer menggunakan teknik net scraping. Situs ini dipilih karena menyediakan katalog laptop computer dengan informasi spesifikasi yang cukup lengkap dan harga yang tertera secara jelas.
Terdapat dua jenis variabel dalam dataset:
- Variabel Respon, yaitu harga laptop computer
- Variabel Prediktor, yaitu fitur-fitur laptop computer seperti: merek, prosesor ukuran RAM, ukuran SSD,ukuran HDD, ukuran layar, dan sistem operasi.
Metode & Alat yang Digunakan
Mannequin yang digunakan dalam proyek ini adalah Random Forest Regression, sebuah algoritma berbasis ensemble studying yang menggabungkan banyak resolution tree untuk meningkatkan akurasi dan mengurangi overfitting.
Langkah-Langkah yang Dilakukan:
- Preprocessing
- Information cleansing (memperbaiki information yang tidak konsisten, duplikat, atau hilang)
- Transformasi information (pelabelan information kategorik menggunakan LabelEncoder)
2. Pemodelan
- Pemisahan dataset menjadi 80% information latih dan 20% information uji
- Penyetelan hyperparameter dengan random search CV (ntree, mtry, nodesize)
- Membangun mannequin regresi Random Forest
3. Evaluasi Kinerja Mannequin
- Menghitung MAPE pada information uji
Alat yang digunakan meliputi: Python (Google Colab) [library: Pandas, NumPy, Matplotlib, dan Scikit-learn], ParseHub (Internet scraping).
Bagaimana Hasilnya?
- Penyetelan Hyperparameter
Proses random search CV 10 iterasi menghasilkan kombinasi hyperparameter terbaik yaitu ntree = 400, mtry = 2, dan nodesize = 2.
2. Pembentukan Mannequin Regresi Random Forest
Pembentukan mannequin dilakukan dengan hyperparameter yang terpilih dari hasil penyetelan hyperparameter. Berikut merupakan 1dari 400 pohon regresi yang terbentuk.
Setelah 400 pohon regresi terbentuk, prediksi regresi dari masing-masing pohon dapat diperoleh. Untuk setiap pohon regresi, nilai prediksi adalah rata-rata dari nilai pada simpul daun yang sesuai. Prediksi akhir dari mannequin diperoleh dengan menghitung rata-rata nilai prediksi dari 400 pohon regresi.
3. Evaluasi Kinerja Mannequin
Evaluasi kinerja mannequin dilakukan dengan membandingkan harga aktual dan harga hasil prediksi information uji.
Selanjutnya menghitung nilai MAPE information uji dan diperoleh nilai MAPE sebesar 14,3% dan mannequin memiliki akurasi sebesar 85,67%. Hal itu menunjukkan mannequin memiliki performa yang baik untuk melakukan prediksi.
4. Variable Significance
Variable significance digunakan untuk melihat seberapa kuat suatu variabel prediktor memengaruhi variabel respon.
Berdasarkan proyek ini, fitur yang paling berpengaruh terhadap harga yaitu ukuran RAM, sedangkan yang berpengaruh paling kecil yaitu ukuran penyimpanan HDD.
5. Prediksi Harga Menggunakan Mannequin
Percobaan prediksi harga laptop computer dilakukan menggunakan mannequin regresi random forest yang terbentuk dengan kriteria laptop computer bermerek Acer, prosesor Intel Core i7, RAM 16 GB, SSD 512 GB, HDD 0 GB, ukuran layar 15 inci, dan sistem operasi Home windows 11 House. Hasil prediksi harga laptop computer tersebut sebesar Rp 14.248.788.
Perception & Kesimpulan
Melalui proyek ini, saya belajar bahwa meskipun harga laptop computer dipengaruhi oleh banyak faktor, kita bisa memetakan polanya secara sistematis dengan bantuan machine studying. Mannequin regresi Random Forest terbukti efektif dalam menangkap interaksi antar fitur dan memberikan prediksi yang cukup akurat.
Mannequin ini dapat dikembangkan lebih lanjut dalam bentuk aplikasi net interaktif, misalnya dengan framework seperti Flask, di mana pengguna bisa memasukkan spesifikasi laptop computer dan langsung mendapatkan estimasi harga. Dengan pengembangan tersebut, hasil dari analisis ini tidak hanya bermanfaat secara akademis, tetapi juga aplikatif dan berdampak langsung bagi masyarakat luas.