Persiapan Data Dalam Data Mining: Data Reduction

Persiapan Data Dalam Data Mining: Data Reduction – Pertumbuhan yang pesat dari akumulasi data telah menciptakan kondisi di mana data berlimpah tapi informasinya sedikit. Data preprocessing merupakan salah satu metode untuk mengatasi masalah tersebut. Salah satu bagian dalam data preprocessing adalah data reduction (reduksi data), yang merupakan suatu teknik yang dapat diterapkan untuk memperoleh hasil reduksi dari sejumlah dataset dengan jumlah volume data yang lebih kecil.

Apa itu Data Reduction (Reduksi Data)?

Data reduction (Reduksi data) adalah transformasi informasi digital numerik atau alfabet yang diperoleh secara empiris atau eksperimental menjadi bentuk yang dikoreksi, dipesan, dan disederhanakan. Konsep dasarnya adalah pengurangan jumlah data yang banyak ke bagian yang bermakna. Tujuan dari Data reduction yaitu untuk mengatasi keterbatasan penyimpanan data dalam database/data warehouse dan mengatasi lamanya waktu yang dibutuhkan untuk menganalisis data yang kompleks dalam tiap dataset yang lengkap.

Metode Reduksi Data

Metode reduksi data yang akan dibahas yakni:

  1. Dimensionality Reduction (Reduksi Dimensi)
    1. Ekstraksi Fitur
    2. Seleksi Fitur
      1. Filter Approach (Pendekatan Filter)
      1. Wrapper Approach (Pendekatan Wrapper)
      2. Embedded Approach (Pendekatan Embedded)
  2. Numerosity Reduction (Reduksi Numerik)
    • Model Regresi dan Log-Linear
    • Histogram, pengelompokan, pengambilan sampel

1. Dimensionality Reduction (Reduksi Dimensi)

Kekurangan dari dimensi yakni: Ketika dimensi meningkat maka data menjadi semakin jarang, kepadatan dan jarak antara titik yang sangat penting untuk clustering dan analisis outlier menjadi kurang bermakna serta kombinasi yang mungkin dari sub ruang akan tumbuh secara eksponensial. Tujuan melakukan reduksi dimensi yakni: menghindari kekurangan dari dimensi, membantu menghilangkan fitur yang tidak relevan dan mengurangi noise, mengurangi waktu dan ruang yang dibutuhkan dalam penambangan data dan memungkinkan visualisasi yang lebih mudah.

Metode reduksi dimensi yang pertama yakni ekstraksi fitur. Ekstraksi fitur dapat dilakukan dengan cara: Wavelet transforms dan Principal Component Analysis (PCA). Sedangkan untuk metode reduksi yang kedua yakni seleksi fitur. Dapat dilakukan dengan pendekatan: Filter, Wrapper dan Embedded.

Ekstraksi fitur dengan Principal Component Analysis (PCA)

Metode ini hanya berfungsi untuk data numerik. Diberikan vektor data N dari dimensi-n, temukan k ≤ n
vektor ortogonal (komponen utama) yang paling baik digunakan untuk merepresentasikan data. Berikut ini langkah-langkah yang perlu dilakukan:

  1. Normalisasi data input: Setiap atribut berada dalam kisaran yang sama
  2. Hitung vektor ortonormal (unit), yaitu Komponen utama
  3. Setiap data input (vektor) adalah kombinasi linear dari nilai k vektor komponen utama.
  4. Komponen utama diurutkan dalam urutan decreasing (menurun) “Signifikansi” atau kekuatan
  5. Karena komponen diurutkan, ukuran data dapat dikurangi dengan menghilangkan komponen yang lemah, yaitu komponen-komponen dengan varian rendah.

Seleksi Fitur

Metode ini merupakan cara lain untuk melakukan reduksi dimensi data. Untuk atribut yang redundant, yakni duplikasi sebagian atau semua dari informasi yang terdapat dalam satu atribut atau lebih banyak atribut lainnya. Contohnya: harga beli suatu produk dan jumlah pajak penjualan dibayar. Kemudian untuk atribut yang tidak relevan, yakni tidak mengandung informasi yang berguna untuk tugas data mining yang ada. Contohnya: ID siswa sering tidak relevan dengan tugas memprediksi IPK siswa.

Pendekatan Seleksi Fitur

Sejumlah pendekatan yang diusulkan untuk fitur seleksi dapat dikategorikan secara luas ke dalam tiga klasifikasi: wrapper, filter, dan embedded (Liu & Tu, 2004)

  1. Dalam pendekatan filter, analisis statistik dari set fitur diperlukan, tanpa menggunakan model pembelajaran apa pun (Dash & Liu, 1997). Dapat menggunakan information gain, chi square, log lokehood rasio, dll.
  2. Dalam pendekatan wrapper, model pembelajaran yang telah ditentukan diasumsikan, di mana fitur dipilih yang membenarkan kinerja pembelajaran model pembelajaran tertentu (Guyon & Elisseeff, 2003). Dapat menggunakan forward selection, backward elemination, randomized hill climbing, dll.
  3. Pendekatan yang embedded mencoba untuk memanfaatkan kekuatan pelengkap pendekatan pembungkus dan filter (Huang, Cai, & Xu, 2007). Dapat menggunakan decision tree, weighted naïve bayes, dll.

Pendekatan Wrapper vs Pendekatan Filter

Data Reduction: Pendekatan Wrapper vs Pendekatan Filter
Sumber: IlmuKomputer.Com

No Free Lunch Theory (Hukum ke- 4 Data Mining)

“There is No Free Lunch for the Data Miner (NFL-DM)
Model yang tepat untuk aplikasi yang diberikan hanya dapat ditemukan dengan eksperimen”

  • Kebenaran pembelajaran mesin: jika kita cukup tahu tentang ruang lingkup masalah, kita dapat memilih atau merancang algoritma untuk menemukan solusi paling optimal dalam ruang lingkup masalah dengan efisiensi paling maksimal.
  • Argumen terhadap keunggulan satu algoritma atas yang lain dalam data mining didasarkan pada gagasan bahwa ruang lingkup masalah data mining memiliki satu set properti tertentu, atau bahwa properti ini dapat ditemukan dengan analisis dan dibangun ke dalam algoritma
  • Namun, pandangan ini muncul dari gagasan keliru. Bahwa dalam data mining, penambang data merumuskan masalah dan algoritma menemukan solusinya.
  • Faktanya, penambang data merumuskan masalah dan menemukan solusinya – algoritma hanyalah alat yang digunakan penambang data untuk membantu langkah-langkah tertentu dalam proses ini

2. Numerosity Reduction (Reduksi Numerik)

Dalam reduksi numerik akan dilakukan pengurangan volume data dengan memilih alternatif, bentuk representasi data yang lebih kecil. Ada dua metode yang dapat dilakukan, yakni metode parametrik dan metode non-parametrik.

A.Metode parametrik

Regresi – Asumsikan data cocok dengan beberapa model, perkirakan parameter model, simpan hanya parameternya, dan buang data (kecuali kemungkinan outlier). Dalam regresi linear, data dimodelkan agar sesuai dengan garis lurus. Seringkali menggunakan metode kuadrat-terkecil agar sesuai dengan garis. Dalam Regresi berganda, mengizinkan variabel respons Y dimodelkan sebagai fungsi linear dari vektor fitur multidimensi.

Model log-linear — dapatkan nilai pada titik di ruang m-D sebagai produk pada subruang marginal yang sesuai. Dalam model ini, mendekati distribusi probabilitas multidimensi diskrit

Regress Analysis (Analisis Regresi)

Sumber: IlmuKomputer.Com
  • Analisis regresi: Nama kolektif untuk teknik pemodelan dan analisis data numerik yang terdiri dari nilai-nilai variabel dependen (juga disebut variabel respons atau pengukuran) dan satu atau lebih variabel independen (alias. Variabel penjelas atau prediktor)
  • Parameter diperkirakan untuk memberikan “kecocokan” data yang terbaik
  • Pada umumnya paling cocok dievaluasi dengan menggunakan metode least squares method (kuadrat terkecil), tetapi metode lain juga bisa digunakan.
  • Digunakan untuk prediksi (termasuk perkiraan data deret waktu), inferensi, pengujian hipotesis, dan pemodelan hubungan kausal

Model Regresi Analysis and Log-Linear

  1. Regresi Linier: Y = w X + b
    • Dua koefisien regresi, w dan b, tentukan garis dan diestimasi dengan menggunakan data yang ada
    • Menggunakan kriteria kuadrat terkecil dengan nilai Y1, Y2,…, X1, X2, …
  2. Regresi berganda: Y = b0 + b1 X1 + b2 X2
    • Banyak fungsi nonlinear dapat diubah menjadi di atas
  3. Model Log-linear :
    • Perkiraan distribusi probabilitas multidimensi diskrit
    • Perkirakan probabilitas setiap titik (tuple) dalam ruang multi-dimensionala untuk sekumpulan atribut yang didiskritisasi, berdasarkan subkumpulan kombinasi dimensi yang lebih kecil
    • Berguna untuk pengurangan dimensi dan perataan data

B. Metode non-parametrik

Dalam metode ini tidak perlu mengasumsikan model. Famili utamanya yakni: histogram, clustering dan sampling.

Histogtam Analysis

Bagilah data ke dalam keranjang dan simpan rata-rata (jumlah) untuk setiap keranjang. Aturan partisinya yakni: Equal-width (sama jarak keranjang) dan Equal-frequency (kedalaman yang sama).

Clustering

Data yang telah dipartisi akan diatur ke dalam cluster berdasarkan kesamaan, dan menyimpan representasi cluster (mis., Centroid dan diameter) saja. Dapat sangat efektif jika data terkelompok tetapi tidak jika data “berantakan”. Dapat memiliki hierarki hierarki dan disimpan dalam struktur pohon indeks multi-dimensi. Ada banyak pilihan definisi pengelompokan dan algoritma pengelompokan.

Sampling

  • Pengambilan sampel: memperoleh sampel kecil untuk mewakili seluruh rangkaian data N
  • Biarkan algoritma penambangan berjalan dalam kompleksitas yang berpotensi sub-linear dengan ukuran data
  • Prinsip utama: Pilih subset data yang representatif
    • Simple random sampling mungkin memiliki kinerja yang sangat buruk di hadapan kemiringan
    • Mengembangkan metode pengambilan sampel adaptif, mis., Pengambilan sampel bertingkat
  • Catatan: Pengambilan sampel mungkin tidak mengurangi I / O basis data (halaman sekaligus)

Tipe-tipe Sampling

  • Simple random sampling
    • Ada probabilitas yang sama untuk memilih item tertentu
  • Sampling without replacement
    • Setelah suatu objek dipilih, ia dikeluarkan dari populasi
  • Sampling with replacement
    • Objek yang dipilih tidak dihapus dari populasi
  • Stratified sampling
    • Memartisi kumpulan data, dan menggambar sampel dari setiap partisi (secara proporsional, mis., Kira-kira persentase yang sama dari data)
    • Digunakan bersamaan dengan data yang miring
Sampling: With or without Replacement
Sumber: IlmuKomputer.Com
Sampling: Cluster or Stratified Sampling
Sumber: IlmuKomputer.Com

Stratified Sampling

  • Stratifikasi adalah proses membagi anggota populasi menjadi subkelompok yang homogen sebelum pengambilan sampel
  • Misalkan dalam suatu perusahaan ada staf berikut:
    • Laki-laki, penuh waktu: 90
    • Laki-laki, paruh waktu: 18
    • Wanita, penuh waktu: 9
    • Wanita, paruh waktu: 63
    • Total: 180
  • Anda diminta untuk mengambil sampel sebanyak 40 staf, bertingkat sesuai dengan kategori di atas
  • Cara mudah untuk menghitung persentase adalah dengan mengalikan setiap ukuran kelompok dengan ukuran sampel dan membaginya dengan total populasi:
    • Pria, penuh waktu = 90 × (40 ÷ 180) = 20
    • Laki-laki, paruh waktu = 18 × (40 ÷ 180) = 4
    • Wanita, penuh waktu = 9 × (40 ÷ 180) = 2
    • Wanita, paruh waktu = 63 × (40 ÷ 180) = 14

Begitulah artikel yang membahas tentang Persiapan Data Dalam Data Mining: Data Reduction, terima kasih telah membaca artikel kami. Artikel selanjutnya akan membahas tentang Transformasi Data.

Baca Juga:
Memahami Konsep Data Mining Beserta Prosesnya
Persiapan Data Dalam Data Mining: Data Cleaning

Tinggalkan komentar

error: Content is protected !!