Algoritma Estimasi dalam Data Mining: Linear Regression

Algoritma estimasi dalam Data Mining – Algoritma Estimasi merupakan metode paling tepat untuk menyelesaikan yang berkaitan dengan memperkirakan seberapa banyak hasil produksi. Estimasi sendiri memiliki beberapa keunggulan diantara lain dapat memprediksi data time series dari beberapa tahun tertentu,yang dirangkum dan dihitung sehingga menghasilkan prediksi yang akan datang dengan hasil berupa persentase (Rohman dan Ami, 2008).

Baca Juga: Persiapan Data Dalam Data Mining: Data Cleaning

Apa itu Algoritma Estimasi?

Estimasi adalah suatu metode dimana kita dapat memperkirakan nilai Populasi dengan memakai nilai sampel. Estimasi biasanya diperlukan untuk mendukung keputusan yang baik,menjadwalkan pekerjaan, menentukan berapa lama proyek perlu dilakukan dan berapa biayanya, menentukan apakah proyek layak dikerjakan, mengembangkan kebutuhan arus kas, menentukan seberapa baik kemajuan proyek, menyusun anggaran time phased dan menetapkan baseline proyek (Prasetyo, 2014). Salah satu algoritma yang dapat memodelkan persamaan untuk menghitung estimasi yakni Algoritma Linear Regression.

Algoritma Estimasi: Linear Regression

Linear Regression (Regresi linier) mencoba untuk memodelkan hubungan antara dua variabel dengan memasang persamaan linear untuk mengamati data. Linear Regression berusaha menemukan hubungan matematis antar variabel. Berikut ini tahapan algoritma Linear Regression.

  1. Siapkan data
  2. Identifikasi Atribut dan Label
  3. Hitung X², Y², XY dan total dari masing-masingnya
  4. Hitung a dan b berdasarkan persamaan yang sudah ditentukan
  5. Buat Model Persamaan Regresi Linear Sederhana

1. Persiapan Data

TanggalRata-rata Suhu Ruangan (X)Jumlah Cacat (Y)
12410
2225
3216
4203
5226
6194
7205
8239
92411
102513
Persiapan Data

2. Identifikasikan Atribut dan Label

Y = a + bX

Dimana:
Y = Variabel terikat (Dependen)
X = Variabel tidak terikat (Independen)
a = konstanta
b = koefisien regresi (kemiringan); besaran Response yang ditimbulkan oleh variable

3. Hitung X², Y², XY dan total dari masing-masingnya

TanggalRata-rata Suhu Ruangan (X)Jumlah Cacat (Y)X2Y2XY
12410576100240
222548425110
321644136126
4203400960
522648436132
61943611676
720540025100
823952981207
92411576121264
102513625169325
 2207248766181640
Total X², Y², XY

4. Hitung a dan b berdasarkan persamaan yang sudah ditentukan

• Menghitung Koefisien Regresi (a)

Rumus Koefisien Regresi (a)
Menghitung Koefisien Regresi (a)

a = -27,02

• Menghitung Koefisien Regresi (b)

Rumus Koefisien Regresi (b)
Menghitung Koefisien Regresi (b)

b = 1,56

5. Buatkan Model Persamaan Regresi Linear Sederhana

Y = a + bX
Y = -27,02 + 1,56X

Pengujian

1. Prediksikan Jumlah Cacat Produksi jika suhu dalam keadaan tinggi (Variabel X), contohnya: 30°C
Y = -27,02 + 1,56X
Y = -27,02 + 1,56(30)
Y = 19,78

2. Jika Cacat Produksi (Variabel Y) yang ditargetkan hanya boleh 5 unit, maka berapakah suhu ruangan yang diperlukan untuk mencapai target tersebut?
5             = -27,02 + 1,56X
1,56X     = 5+27,02
X             = 32,02/1,56
X             = 20,52

Jadi Prediksi Suhu Ruangan yang paling sesuai untuk mencapai target Cacat Produksi adalah sekitar 20,52°C

Studi Kasus CRISP-DM

Heating Oil Consumption – Estimation

Gunakan dataset Chapter04DataSet.csv dan Chapter08DataSet.csv
Link untuk mengunduh File CSV tersebut terdapat pada artikel Memahami Konsep Data Mining Beserta Prosesnya.

Baca Juga : Metodologi CRISP-DM Beserta Contoh Kasusnya

Metodologi CRISP-DM

Metodologi CRISP-DM
Metodologi CRISP-DM

Konteks dan Sudut pandang

  • Sarah, manajer penjualan regional kembali untuk bantuan lebih lanjut.
  • Bisnis sedang booming, tim penjualannya mendaftar ribuan klien baru, dan dia ingin memastikan perusahaan akan dapat memenuhi tingkat permintaan baru ini, dia sekarang berharap kita dapat membantunya melakukan beberapa prediksi juga.
  • Dia tahu bahwa ada beberapa korelasi antara atribut dalam set datanya (hal-hal seperti suhu, isolasi, dan usia penghuni), dan dia sekarang bertanya-tanya apakah dia dapat menggunakan set data sebelumnya untuk memprediksi penggunaan minyak pemanas untuk pelanggan baru.
  • Anda lihat, para pelanggan baru ini belum mulai mengkonsumsi minyak pemanas, ada banyak dari mereka (tepatnya 42.650), dan dia ingin tahu berapa banyak minyak yang dia butuhkan untuk disimpan dalam persediaan agar dapat memenuhi ini permintaan pelanggan baru.
  • Bisakah dia menggunakan data mining untuk memeriksa atribut rumah tangga dan jumlah konsumsi masa lalu yang diketahui untuk mengantisipasi dan memenuhi kebutuhan pelanggan barunya?

1. Business Understanding

  • Tujuan data mining baru milik Sarah cukup jelas: dia ingin mengantisipasi permintaan akan produk yang dapat dikonsumsi.
  • Kami akan menggunakan model regresi linier untuk membantunya dengan prediksi yang diinginkan.
  • Dia memiliki data, 1.218 pengamatan yang memberikan profil atribut untuk setiap rumah, bersama dengan konsumsi minyak pemanas tahunan rumah-rumah itu.
  • Dia ingin menggunakan kumpulan data ini sebagai data pelatihan untuk memprediksi penggunaan yang akan dibawa 42.650 klien baru ke perusahaannya Dia tahu bahwa rumah klien baru ini pada dasarnya serupa dengan basis klien yang ada, sehingga perilaku penggunaan pelanggan yang ada harus berfungsi sebagai alat ukur yang kuat untuk memprediksi penggunaan di masa depan oleh pelanggan baru.

2. Data Understanding

Kami membuat kumpulan data yang terdiri dari atribut berikut:

  • Insulation: Ini adalah peringkat kerapatan, mulai dari satu hingga sepuluh, menunjukkan ketebalan masing-masing insulasi rumah. Rumah dengan peringkat kepadatan satu memiliki isolasi yang buruk, sedangkan rumah dengan kepadatan sepuluh memiliki isolasi yang sangat baik.
  • Temperature: Ini adalah suhu ambien luar ruang rata-rata di setiap rumah untuk tahun terakhir, ukur dalam derajat Fahrenheit.
  • Heating_Oil: Ini adalah jumlah total unit minyak pemanas yang dibeli oleh masing-masing pemilik rumah dalam tahun terakhir.
  • Num_Occupants: Ini adalah jumlah total penghuni yang tinggal di setiap rumah.
  • Avg_Age: Ini adalah usia rata-rata penghuni tersebut Home_Size: Ini adalah peringkat, pada skala satu hingga delapan, dari ukuran keseluruhan rumah. Semakin tinggi angkanya, semakin besar rumah.

3. Data Preparation

Data Preparation_1
Data Preparation_2
Data Preparation_3

4. Modeling

Modeling

5. Evaluation

Evaluation_1
Evaluation_2

6. Deployment

Deployment_1
Deployment_2

Daftar Pustaka

Prasetyo, E., DATA MINING :Mengolah Data Menjadi Informasi Menggunakan Matlab, Yogyakarta, CV. Andi Offset, 2014.
Rohman, F. F., Ami Fauzijah. 2008. Rancang Bangun Aplikasi Sistem Pakar Untuk Menentukan Jenis Gangguan Perkembangan Pada Anak. Media Informatika, Vol. 6, No. 1.
Rommi S.W. 2020. Data Mining. http://romisatriawahono.net/

Tinggalkan komentar

error: Content is protected !!