Algoritma estimasi dalam Data Mining – Algoritma Estimasi merupakan metode paling tepat untuk menyelesaikan yang berkaitan dengan memperkirakan seberapa banyak hasil produksi. Estimasi sendiri memiliki beberapa keunggulan diantara lain dapat memprediksi data time series dari beberapa tahun tertentu,yang dirangkum dan dihitung sehingga menghasilkan prediksi yang akan datang dengan hasil berupa persentase (Rohman dan Ami, 2008).
Table of Contents
Apa itu Algoritma Estimasi?
Estimasi adalah suatu metode dimana kita dapat memperkirakan nilai Populasi dengan memakai nilai sampel. Estimasi biasanya diperlukan untuk mendukung keputusan yang baik,menjadwalkan pekerjaan, menentukan berapa lama proyek perlu dilakukan dan berapa biayanya, menentukan apakah proyek layak dikerjakan, mengembangkan kebutuhan arus kas, menentukan seberapa baik kemajuan proyek, menyusun anggaran time phased dan menetapkan baseline proyek (Prasetyo, 2014). Salah satu algoritma yang dapat memodelkan persamaan untuk menghitung estimasi yakni Algoritma Linear Regression.
Algoritma Estimasi: Linear Regression
Linear Regression (Regresi linier) mencoba untuk memodelkan hubungan antara dua variabel dengan memasang persamaan linear untuk mengamati data. Linear Regression berusaha menemukan hubungan matematis antar variabel. Berikut ini tahapan algoritma Linear Regression.
- Siapkan data
- Identifikasi Atribut dan Label
- Hitung X², Y², XY dan total dari masing-masingnya
- Hitung a dan b berdasarkan persamaan yang sudah ditentukan
- Buat Model Persamaan Regresi Linear Sederhana
1. Persiapan Data
Tanggal | Rata-rata Suhu Ruangan (X) | Jumlah Cacat (Y) |
1 | 24 | 10 |
2 | 22 | 5 |
3 | 21 | 6 |
4 | 20 | 3 |
5 | 22 | 6 |
6 | 19 | 4 |
7 | 20 | 5 |
8 | 23 | 9 |
9 | 24 | 11 |
10 | 25 | 13 |
2. Identifikasikan Atribut dan Label
Y = a + bX
Dimana:
Y = Variabel terikat (Dependen)
X = Variabel tidak terikat (Independen)
a = konstanta
b = koefisien regresi (kemiringan); besaran Response yang ditimbulkan oleh variable
3. Hitung X², Y², XY dan total dari masing-masingnya
Tanggal | Rata-rata Suhu Ruangan (X) | Jumlah Cacat (Y) | X2 | Y2 | XY |
1 | 24 | 10 | 576 | 100 | 240 |
2 | 22 | 5 | 484 | 25 | 110 |
3 | 21 | 6 | 441 | 36 | 126 |
4 | 20 | 3 | 400 | 9 | 60 |
5 | 22 | 6 | 484 | 36 | 132 |
6 | 19 | 4 | 361 | 16 | 76 |
7 | 20 | 5 | 400 | 25 | 100 |
8 | 23 | 9 | 529 | 81 | 207 |
9 | 24 | 11 | 576 | 121 | 264 |
10 | 25 | 13 | 625 | 169 | 325 |
220 | 72 | 4876 | 618 | 1640 |
4. Hitung a dan b berdasarkan persamaan yang sudah ditentukan
• Menghitung Koefisien Regresi (a)
a = -27,02
• Menghitung Koefisien Regresi (b)
b = 1,56
5. Buatkan Model Persamaan Regresi Linear Sederhana
Y = a + bX
Y = -27,02 + 1,56X
Pengujian
1. Prediksikan Jumlah Cacat Produksi jika suhu dalam keadaan tinggi (Variabel X), contohnya: 30°C
Y = -27,02 + 1,56X
Y = -27,02 + 1,56(30)
Y = 19,78
2. Jika Cacat Produksi (Variabel Y) yang ditargetkan hanya boleh 5 unit, maka berapakah suhu ruangan yang diperlukan untuk mencapai target tersebut?
5 = -27,02 + 1,56X
1,56X = 5+27,02
X = 32,02/1,56
X = 20,52
Jadi Prediksi Suhu Ruangan yang paling sesuai untuk mencapai target Cacat Produksi adalah sekitar 20,52°C
Studi Kasus CRISP-DM
Heating Oil Consumption – Estimation
Gunakan dataset Chapter04DataSet.csv dan Chapter08DataSet.csv
Link untuk mengunduh File CSV tersebut terdapat pada artikel Memahami Konsep Data Mining Beserta Prosesnya.
Baca Juga : Metodologi CRISP-DM Beserta Contoh Kasusnya
Metodologi CRISP-DM
Konteks dan Sudut pandang
- Sarah, manajer penjualan regional kembali untuk bantuan lebih lanjut.
- Bisnis sedang booming, tim penjualannya mendaftar ribuan klien baru, dan dia ingin memastikan perusahaan akan dapat memenuhi tingkat permintaan baru ini, dia sekarang berharap kita dapat membantunya melakukan beberapa prediksi juga.
- Dia tahu bahwa ada beberapa korelasi antara atribut dalam set datanya (hal-hal seperti suhu, isolasi, dan usia penghuni), dan dia sekarang bertanya-tanya apakah dia dapat menggunakan set data sebelumnya untuk memprediksi penggunaan minyak pemanas untuk pelanggan baru.
- Anda lihat, para pelanggan baru ini belum mulai mengkonsumsi minyak pemanas, ada banyak dari mereka (tepatnya 42.650), dan dia ingin tahu berapa banyak minyak yang dia butuhkan untuk disimpan dalam persediaan agar dapat memenuhi ini permintaan pelanggan baru.
- Bisakah dia menggunakan data mining untuk memeriksa atribut rumah tangga dan jumlah konsumsi masa lalu yang diketahui untuk mengantisipasi dan memenuhi kebutuhan pelanggan barunya?
1. Business Understanding
- Tujuan data mining baru milik Sarah cukup jelas: dia ingin mengantisipasi permintaan akan produk yang dapat dikonsumsi.
- Kami akan menggunakan model regresi linier untuk membantunya dengan prediksi yang diinginkan.
- Dia memiliki data, 1.218 pengamatan yang memberikan profil atribut untuk setiap rumah, bersama dengan konsumsi minyak pemanas tahunan rumah-rumah itu.
- Dia ingin menggunakan kumpulan data ini sebagai data pelatihan untuk memprediksi penggunaan yang akan dibawa 42.650 klien baru ke perusahaannya Dia tahu bahwa rumah klien baru ini pada dasarnya serupa dengan basis klien yang ada, sehingga perilaku penggunaan pelanggan yang ada harus berfungsi sebagai alat ukur yang kuat untuk memprediksi penggunaan di masa depan oleh pelanggan baru.
2. Data Understanding
Kami membuat kumpulan data yang terdiri dari atribut berikut:
- Insulation: Ini adalah peringkat kerapatan, mulai dari satu hingga sepuluh, menunjukkan ketebalan masing-masing insulasi rumah. Rumah dengan peringkat kepadatan satu memiliki isolasi yang buruk, sedangkan rumah dengan kepadatan sepuluh memiliki isolasi yang sangat baik.
- Temperature: Ini adalah suhu ambien luar ruang rata-rata di setiap rumah untuk tahun terakhir, ukur dalam derajat Fahrenheit.
- Heating_Oil: Ini adalah jumlah total unit minyak pemanas yang dibeli oleh masing-masing pemilik rumah dalam tahun terakhir.
- Num_Occupants: Ini adalah jumlah total penghuni yang tinggal di setiap rumah.
- Avg_Age: Ini adalah usia rata-rata penghuni tersebut Home_Size: Ini adalah peringkat, pada skala satu hingga delapan, dari ukuran keseluruhan rumah. Semakin tinggi angkanya, semakin besar rumah.
3. Data Preparation
4. Modeling
5. Evaluation
6. Deployment
Daftar Pustaka
Prasetyo, E., DATA MINING :Mengolah Data Menjadi Informasi Menggunakan Matlab, Yogyakarta, CV. Andi Offset, 2014.
Rohman, F. F., Ami Fauzijah. 2008. Rancang Bangun Aplikasi Sistem Pakar Untuk Menentukan Jenis Gangguan Perkembangan Pada Anak. Media Informatika, Vol. 6, No. 1.
Rommi S.W. 2020. Data Mining. http://romisatriawahono.net/
Terimakasih, sangat bermanfaat