Metodologi CRISP-DM Beserta Contoh Kasusnya

Metodolgi CRISP-DM dalam Data Mining Beserta Contoh Kasus – Metodologi CRISP-DM telah dimanfaatkan dalam dunia industri. Dunia industri yang beragam bidangnya memerlukan proses yang standard yang mampu mendukung penggunaan data mining untuk menyelesaikan masalah bisnis. Berdasarkan ‘best practice’, praktisi-praktisi dan peneliti Data Mining mengusulkan beberapa proses seperti workflow atau pendekatan dengan tahapan-tahapan yang sederhana untuk memperbesar peluang keberhasilan dalam melaksanakan berbagai projek dalam Data Mining. Usaha-usaha tersebut menghasilkan beberapa proses yang dijadikan sebagai standard, salah satu yang sudah terstandarisasi dan termasuk terpopuler yakni Metodologi Cross-Industry Standard Process for Data Mining (CRISP-DM).

Metodologi CRISP-DM (Cross-Industry Standard Process for Data Mining)

Metodologi CRISP-DM
Sumber : IlmuKomputer.com

Gambar berikut di atas menggambarkan proses dalam metodologi CRISP-DM. Ada enam tahap berurutan yang dimulai dengan Business Understanding (Pemahaman Terhadap Bisnis), Data Understanding (Pemahaman Terhadap Data), Data Preparation (Persiapan Data), Modeling (Pemodelan), Evaluation (Evaluasi) dan Deployment (Penyebaran).

1. Business Understanding (Pemahaman Terhadap Bisnis)

Tahap pertama ini dimulai dengan memahami tujuan dan kebutuhan proyek dengan jelas dalam sudut pandang bisnis atau penelitian secara keseluruhan. Terjemahkan sasaran dan pembatasan ini ke dalam rumusan definisi masalah Data Mining. Mempersiapkan strategi awal untuk mencapai tujuan-tujuan ini. Dan terakhir, merancang apa yang akan dibangun.

2. Data Understanding (Pemahaman Terhadap Data)

Tahap kedua yakni mengumpulkan data yang diperlukan. Gunakan analisis data eksplorasi untuk memahami data secara mendalam dan menemukan wawasan awal. Mengevaluasi kualitas data. Jika perlu, pilih himpunan bagian yang menarik yang mungkin berisi pola yang dapat ditindaklanjuti.

3. Data Preparation (Persiapan Data)

Pada tahap ketiga persiapkan dari data mentah sebagai set data akhir yang akan digunakan untuk semua fase berikutnya. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai untuk analisis Anda. Melakukan pembersihan, integrasi, reduksi, dan transformasi data, sehingga siap untuk tahap pemodelan.

4. Modeling (Pemodelan)

Pada tahap modeling ini, pilih dan terapkan teknik pemodelan yang sesuai. Sesuaikan pengaturan model untuk mengoptimalkan hasil. Ingatlah bahwa seringkali, beberapa teknik berbeda dapat digunakan untuk masalah Data Mining yang sama. Jika perlu, putar kembali ke fase persiapan data untuk membawa bentuk data sesuai dengan persyaratan spesifik dari teknik Data Mining tertentu.

5. Evaluation (Evaluasi)

Pada tahap ini, akan dilakukan evaluasi terhadap kualitas dan efektivitas satu atau lebih model yang dikirim dalam fase pemodelan sebelum menempatkannya untuk digunakan di lapangan. Tentukan apakah model tersebut benar-benar mencapai tujuan yang ditetapkan pada fase pertama, yakni tahap Business Understanding. Menetapkan apakah beberapa aspek penting dari masalah bisnis atau penelitian belum diperhitungkan secara memadai. dan terakhir, mengambil keputusan berdasarkan penggunaan hasil Data Mining.

6. Deployment (Penyebaran)

Pada tahap keenam ini, pengetahuan atau informasi yang telah diperoleh akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh pengguna. Memanfaatkan model yang telah dibuat tidak menandakan penyelesaian dari suati proyek. Tahap deployment bisa berbentuk pembuatan laporan yang sederhana atau menerapkan proses data mining yang berulang ke dalam perusahaan. Untuk penyebaran yang lebih kompleks, dapat menerapkan proses tersebut secara paralel di departemen lain. Pada banyak kasus, tahap deployment melibatkan konsumen, di samping analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus dilakukan untuk menggunakan model yang telah dibuat.

CRISP-DM detail flow
Sumber : IlmuKomputer.com

Contoh Kasus : Kelulusan Mahasiswa di Universitas Suka Belajar

1. Business Understanding (Pemahaman Terhadap Bisnis)

• Permasalahan:
• Budi adalah Rektor di Universitas Suka Belajar
• Universitas Suka Belajar memiliki masalah besar karena rasio kelulusan mahasiswa tiap angkatan sangat rendah
• Budi ingin memahami dan membuat pola dari profile mahasiswa yang bisa lulus tepat waktu dan yang tidak lulus tepat waktu
• Dengan pola tersebut, Budi bisa melakukan konseling, terapi, dan memberi peringatan dini kepada mahasiswa kemungkinan tidak lulus tepat waktu untuk memperbaiki diri, sehingga akhirnya bisa lulus tepat waktu

• Tujuan:
• Menemukan pola dari mahasiswa yang lulus tepat waktu dan tidak

2. Data Understanding (Pemahaman Terhadap Data)

• Untuk menyelesaikan masalah, Budi mengambil data dari sistem informasi akademik di universitasnya

• Data-data dikumpulkan dari data profil mahasiswa dan indeks prestasi semester mahasiswa, dengan atribut seperti di bawah
1. NAMA
2. JENIS KELAMIN: Laki-Laki atau Perempuan
3. STATUS MAHASISWA: Mahasiswa atau Bekerja
4. UMUR:
5. STATUS NIKAH: Menikah atau Belum Menikah
6. IPS 1: Indeks Prestasi Semester 1
7. IPS 2: Indeks Prestasi Semester 1
8. IPS 3: Indeks Prestasi Semester 1
9. IPS 4: Indeks Prestasi Semester 1
10. IPS 5: Indeks Prestasi Semester 1
11. IPS 6: Indeks Prestasi Semester 1
12. IPS 7: Indeks Prestasi Semester 1
13. IPS 8: Indeks Prestasi Semester 1
14. IPK: Indeks Prestasi Kumulatif
15. STATUS KELULUSAN: Terlambat atau Tepat

3. Data Preparation (Persiapan Data)

data kelulusan mahasiswa
Sumber : IlmuKomputer.com

• Terdapat 379 data mahasiswa dengan 15 atribut
• Missing Value sebayak 10 data, dan tidak terdapat data noise

data kelulusan mahasiswa preparation
Sumber : IlmuKomputer.com

• Missing Value dipecahkan dengan menambahkan data dengan nilai rata-rata
• Hasilnya adalah data bersih tanpa missing value

data kelulusan mahasiswa missing clean
Sumber : IlmuKomputer.com

4. Modeling (Pemodelan)

• Modelkan dataset dengan Decision Tree
• Pola yang dihasilkan bisa berbentuk tree atau if-then

pemodelan if-then
Sumber : IlmuKomputer.com

Hasil pola dari data berupa berupa decision tree (pohon keputusan)

hasil pemodelan
Sumber : IlmuKomputer.com

5. Evaluation (Evaluasi)

Hasil pola dari data berupa berupa peraturan if-then

hasil if-then
Sumber : IlmuKomputer.com

• Atribut atau faktor yang paling berpengaruh adalah Status Mahasiswa, IPS2, IPS5, IPS1
• Atribut atau faktor yang tidak berpengaruh adalah Nama, Jenis Kelamin, Umur, IPS6. IPS7, IPS8

6. Deployment (Penyebaran)

• Budi membuat program peningkatan disiplin dan pendampingan ke mahasiswa di semester awal (1-2) dan semester 5, karena faktor yang paling menentukan kelulusan mahasiswa ada di dua semester itu
• Budi membuat peraturan melarang mahasiswabekerja paruh waktu di semester awal perkuliahan, karena beresiko tinggi di kelulusan tepat waktu
• Budi membuat program kerja paruh waktu di dalam kampus, sehingga banyak pekerjaan kampus yang bisa intens ditangani, sambil mendidik mahasiswasupaya memilikipengalaman kerja. Dan yang paling penting mahasiswa tidak meninggalkan kuliah karena pekerjaan
• Budi memasukkanpola dan model yang terbentuk ke dalam sistem informasi akademik, dimana sistem dibuat cerdas, sehingga bisa mengirimkan email analisis pola secara otomatis ke mahasiswasesuai profilnya

Baca Juga:
Memahami Konsep Data Mining Beserta Prosesnya
Persiapan Data Dalam Data Mining: Data Cleaning
Algorimta Clustering dalam Data Mining: Metode Partisi

2 pemikiran pada “Metodologi CRISP-DM Beserta Contoh Kasusnya”

  1. penjelasannya bagus min, sekarang saya mau bertanya apakah analisis kebutuhan seperti kebutuhan fungsional dan kebutuhan non fungsional bisa dipakai pada metodologi crisp dm? bila bisa masuknya ke tahap mana yah? terimakasih.

    Balas

Tinggalkan komentar

error: Content is protected !!