Persiapan Data Dalam Data Mining: Data Cleaning

Persiapan Data Dalam Data Mining: Data Cleaning– Dalam data mining, persiapan data merupakan langkah awal untuk melakukan proses data mining. Proses ini dikenal dengan istilah data preprocessing. Dalam persiapan data atau data preprocessing terdapat empat tahapan, yakni : Data cleaning, data reduction, data transformation dan data integration. Apabila dikaitkan dengan metodologi CRISP-DM, maka persiapan data berada pada tahap ketiga yakni data preparation.

Baca Juga : Memahami Konsep Data Mining Beserta Prosesnya

Data Preparation
Sumber: IlmuKomputer.Com

Mengapa Memproses Ulang Data?

Ukuran untuk kualitas data dapat dilihat dari beberapa aspek, yakni:

  • Akurasi: Apakah data sudah benar atau masih salah? apakah data sudah akurat atau tidak?
  • Kelengkapan: Data tidak direkam, data tidak tersedia.
  • Konsistensi: beberapa data telah dimodifikasi tetapi beberapa tidak.
  • Ketepatan waktu: Apakah pembaruan data tepat waktu?
  • Dapat dipercaya: seberapa tingkat kepercayaan terhadap kebenaran data?
  • Tingkat Pemahaman: seberapa mudah data dapat dipahami?

Tugas Utama dalam Pengolah Data

  1. Data cleaning (Pembersihan data)
    • Mengisi nilai yang hilang
    • Menghilangkan data yang bersifat noise
    • Identifikasi atau hapus outliers
    • Atasi ketidakkonsistenan
  2. Data reduction (Pengurangan data)
    • Pengurangan dimensi
    • Pengurangan Numerik
    • Kompresi Data
  3. Transformasi data dan diskritisasi data
    • Normalisasi
    • Generalisasi hierarki konsep
  4. Data integration
    • Integrasi beberapa basis data atau file

Hukum Persiapan Data

“Persiapan data merupakan proses yang mencakup lebih dari setengah dari setiap proses data mining”

  • Maxim of Data Mining: sebagian besar upaya dalam proyek Data Mining dihabiskan untuk akuisisi dan persiapan data, dan perkiraan informal bervariasi dari 50 hingga 80 persen.
  • Tujuan persiapan data adalah:
    1. Untuk memasukkan data ke dalam formulir di mana pertanyaan Data Mining dapat diajukan.
    2. Untuk membuatnya lebih mudah untuk teknik analitik (seperti algoritma data mining) untuk menjawabnya.

Data cleaning (Pembersihan data)

Data yang beredar di dunia nyata sebenarnya kotor. Maksudnya banyak data yang berpotensi tidak benar, misalnya kesalahan instrumen, kesalahan manusia atau komputer maupun kesalahan transmisi sehingga memerlukan cleaning data. Beberapa diantaranya seperti berikut ini:

  • Tidak lengkap: tidak memiliki nilai atribut, kurang atribut tertentu, atau hanya berisi data agregat
    Contoh: Pekerjaan = “” (data hilang)
  • Noise: mengandung noise, kesalahan, atau outlier
    Contoh: Gaji = “- 100” (kesalahan)
  • Tidak konsisten: mengandung perbedaan dalam kode atau nama
    Contoh: Usia = “42”, Ulang Tahun = “03/07/2010”
    Berperingkat “1, 2, 3”, sekarang memberi peringkat “A, B, C”
  • Perbedaan antara catatan duplikat
    Contoh: Disengaja (mis., Data hilang yang disamarkan), atau
    1 Januari sebagai hari ulang tahun semua orang?

Data Tidak Lengkap (Tidak Ada)

  • Data tidak selalu tersedia
    Contoh banyak tupel tidak memiliki nilai tercatat untuk beberapa atribut, seperti pendapatan pelanggan dalam data penjualan
  • Data yang hilang mungkin disebabkan oleh:
    1. kerusakan peralatan
    2. tidak konsisten dengan data yang direkam lainnya dan karenanya dihapus
    3. data tidak dimasukkan karena kesalahpahaman
    4. data tertentu mungkin tidak dianggap penting pada saat masuk
    5. tidak mencatat riwayat atau perubahan data
  • Data yang hilang mungkin perlu disimpulkan

Contoh Data Yang Hilang

contoh data cleaning data mining
Sumber: IlmuKomputer.Com

Bagaimana Menangani Data Yang Hilang?

  • Abaikan tupel:
    Biasanya dilakukan ketika label kelas hilang (saat melakukan klasifikasi) —tidak efektif ketika% nilai yang hilang per atribut sangat bervariasi
  • Isi nilai yang hilang secara manual:
    Tedious + infeasible?
  • Isi secara otomatis dengan
    1. Konstanta global: mis., “Tidak diketahui”, kelas baru ?!
    2. Rata-rata atribut
    3. Rata-rata atribut untuk semua sampel milik kelas yang sama: lebih pintar
    4. Nilai yang paling memungkinkan: berbasis inferensi seperti formula Bayesian atau pohon keputusan

Data Noise

Noise merupakan kesalahan acak atau variasi-variasi pada data dalam variabel yang diukur. Kesalahan pada nilai atribut yang mungkin disebabkan oleh instrumen pengumpulan data yang salah, masalah dalam melakukan entri data, masalah yang terjadi saat transmisi data, bisa juga keterbatasan teknologi maupun ketidakkonsistenan dalam konvensi penamaan. Masalah data lainnya yang membutuhkan pembersihan data yakni berupa catatan duplikat, data tidak lengkap dan data tidak konsisten.

Bagaimana Cara Menangani Data Noise?

  • Binning
    1. Pertama mengurutkan data dan mempartisi ke dalam bin (frekuensi yang sama)
    2. Kemudian data dapat dilakukan smooth dengan cara bin, dilakukan smooth dengan median bin, dilakukan smooth dengan batas-batas bin, dll.
  • Regresi
    Melakukan smooth dengan memasukkan data ke dalam fungsi regresi
  • Clustering
    Mendeteksi dan menghapus outlier
  • Gabungan komputer dan inspeksi manusia
    Mendeteksi nilai-nilai yang mencurigakan dan diperiksa oleh manusia (Contoh: Berurusan dengan kemungkinan outlier)

Data Cleaning Sebagai Proses

  • Deteksi perbedaan data
    1. Gunakan metadata (misalnya, domain, jangkauan, ketergantungan, distribusi)
    2. Periksa kelebihan beban lapangan
    3. Periksa aturan keunikan, aturan berurutan, dan aturan nol
    4. Gunakan alat komersial
      • Data scrubbing: gunakan pengetahuan domain sederhana (misalnya, kode pos, periksa ejaan) untuk mendeteksi kesalahan dan melakukan koreksi
      • Data auditing: dengan menganalisis data untuk menemukan aturan dan hubungan untuk mendeteksi pelanggar (misalnya, korelasi dan pengelompokan untuk menemukan pencilan)
  • Migrasi dan integrasi data
    1. Alat migrasi data: memungkinkan transformasi ditentukan
    2. Alat ETL (Extraction/Transformation/Loading): memungkinkan pengguna menentukan transformasi melalui antarmuka pengguna grafis
  • Integrasi dari dua proses
    Pengulangan dan interaktif (Contoh: Potter’s Wheels)

Itulah pembahasan tentang Persiapan Data Dalam Data Mining: Data Cleaning, terimakasih telah membaca artikel kami.

Tinggalkan komentar