Persiapan Data Dalam Data Mining: Data Transformation – Data transformation merupakan tahap ketiga dalam persiapan data dalam data processing . Data Transformation adalah tahapan di mana data ditransformasikan dan dikonsolidasikan ke dalam bentuk yang sesuai untuk mining (Han dkk.,2012). Menurut Junaedi dkk. (2011), dalam data transformation, terdapat beberapa operasi/teknik untuk melakukan transformasi data, yaitu normalization, discretization, smoothing, attribute construction, dan aggregation.
Baca Juga : Persiapan Data Dalam Data Mining: Data Reduction
Table of Contents
Normalization
Normalization adalah proses pengelompokan atribut ke dalam hubungan yang terstruktur dengan baik dan bebas dari anomali (Lee, 1995). Normalization digunakan untuk mentransformasi sebuah atribut numerik diskalakan dalam range yang lebih kecil seperti -1.0 sampai 1.0. Teknik yang dapat digunakan untuk operasi ini adalah min-max normalization, Z-Score Normalization dan normalization by decimal scaling
Min-max Normalization
Min-max normalization memetakan sebuah value v dari atribut A menjadi v’ ke dalam range [new_minA, new_maxA] berdasarkan rumus:

Contoh : Kisaran pendapatan $12.000 hingga $98.000 dinormalisasi ke [0.0, 1.0]. Kemudian $73.000 dipetakan ke
Z-Score Normalization
Disebut juga zero-mean normalization, dimana value dari sebuah atribut A dinormalisasi berdasarkan nilai rata-rata dan standar deviasi dari atribut A. Sebuah value v dari atribut A dinormalisasi menjadi v’ dengan rumus: (μ: mean, σ: standard deviation)

Contoh : Jika μ = 54,000, σ = 16,000. Maka
Normalization by Decimal Scaling
Normalisasi yang diperoleh dengan melakukan penggeseran titik desimal dari value sebuah atribut A. Jumlah titik desimal yang digeser tergantung dari nilai absolut maksimum dari atribut A.
Dimana j adalah integer terkecil sehingga Max(|ν’|) < 1
Discretization
Discretization adalah digunakan untuk mereduksi sekumpulan nilai yang terdapat pada atribut continuous, dengan membagi range dari atribut ke dalam interval. Operasi yang digunakan dalam discretization adalah Binning.
Tiga jenis atribut
- Nominal — nilai dari set yang tidak berurutan, mis., Warna, profesi
- Ordinal — nilai dari set yang diperintahkan, mis., Pangkat militer atau akademik
- Numerik — bilangan real, mis., Bilangan bulat atau bilangan real
Diskretisasi: Membagi rentang atribut kontinu ke dalam interval
- Label interval kemudian dapat digunakan untuk menggantikan nilai data aktual
- Mengurangi ukuran data dengan diskritisasi
- Supervised vs. unsupervised
- Split (top-down) vs merge (bottom-up)
- Diskritisasi dapat dilakukan secara berulang pada suatu atribut
- Bersiap untuk analisis lebih lanjut, mis., Klasifikasi
Metode Data Discretization (Metode umum: Semua metode dapat diterapkan secara rekursif )
- Binning: Top-down split, unsupervised
- Histogram analysis: Top-down split, unsupervised
- Clustering analysis: Unsupervised, top-down split or bottom-up merge
- Decision-tree analysis: Supervised, top-down split
- Correlation (mis., χ²) analysis: Unsupervised, bottom-up merge
Discretization dengan Classification & Correlation Analysis
- Classification (Misalnya: decision tree analysis)
- Supervised: Label kelas yang diberikan, Yakni., Kanker vs. jinak
- Menggunakan entropi untuk menentukan split point (discretization point)
- Top-down, recursive split
- Correlation analysis (Misalnya: Chi-merge: χ²-based discretization)
- Supervised: gunakan informasi class
- Bottom-up merge: temukan interval terbaik yang bertetangga (interval yang memiliki distribusi kelas yang serupa, yaitu nilai χ² terendah) untuk merge.
- Merge dilakukan secara rekursif, hingga kondisi berhenti yang telah ditentukan
Smoothing
Operasi Smoothing digunakan untuk mengatasi data bersifat noise/nilai yang tidak valid untuk proses mining dengan memperhatikan nilai-nilai tentangga. Beberapa metode yang dapat digunakan yakni binning, clustering dan regression. Berikut ini pembahasan untuk setiap metode tersebut.
Binning
Metode binning dilakukan dengan memeriksa “nilai tetangga”, yaitu nilai-nilai yang ada disekelilingnya. Berikut adalah langkah-langkah metode binning:
- Data diurutkan dari yang terkecil sampai dengan yang terbesar.
- Data yang sudah urut kemudian dipartisi ke dalam beberapa bin. Teknik partisi ke dalam bin ada 2 (dua) cara:
- equal-width (distance) partitioning
- Membagi rentang menjadi interval N dengan ukuran yang sama: kisi seragam
- jika A dan B adalah nilai atribut terendah dan tertinggi, lebar interval adalah: W = (B –A) / N.
- Yang paling mudah, tetapi outlier dapat mendominasi presentasi
- Data yang miring tidak ditangani dengan baik
- equal-depth (frequency) partitioning.
- Membagi rentang menjadi interval N, masing-masing berisi kurang lebih jumlah sampel yang sama
- Sembuatan skala data yang bagus
- Mengelola atribut kategoris bisa rumit
- equal-width (distance) partitioning
- Dilakukan smoothing dengan tiga macam teknik, yaitu: smoothing by binmeans, smoothing by bin-medians, dan smoothing by bin-boundaries.
Contoh Binning Mengurutkan bilangan numerik : 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34- Partisi ke dalam bin dengan frekuensi yang sama (equi-depth):
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
- Smoothing denagn bin means:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
- Smoothing dengan bin boundaries:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
- Partisi ke dalam bin dengan frekuensi yang sama (equi-depth):
Clustering
Digunakan untuk menyingkirkan outliers (keluar jauh-jauh dari cluster/centroid), data yang memiliki noise. Algoritma k-Means yang merupakan kategori metode partitioning dapat digunakan jika ukuran database tidak terlalu besar. Algoritma ini didasarkan pada nilai tengah dari objek yang ada dalam cluster. Algoritma k-Means meminta inputan parameter k, dan mempartisi satu set n objek ke dalam k cluster sehingga menghasilkan tingkat kemiripan yang tinggi antar objek dalam kelas yang sama (intra-class similarity) dan tingkat kemiripan yang paling rendah antar objek dalam kelas yang berbeda (inter-class similarity). Kemiripan cluster diukur dengan menghitung nilai tengah dari objek yang ada di dalam cluster.

Regression
Linear regression memodelkan sebuah variate , Y (disebut response variable) sebagai sebuah fungsi linier dari variate yang lain, X (disebut sebagai predictor variable), dengan persamaan empiris: Y = α +βX , dimana α dan β adalah koefisien regresi. Koefisien ini dapat dihitung menggunakan metode method of least squares dengan persamaan sebagai berikut:
dan
, dimaxa x adalah nilai rata-rata dari x1, x2, …, xi dan y adalah nilai rata-rata dari y1, y2, …, yi.
Attribute Contruction
Pada attribute construction, mengkontruksi atau menambahkan atribut baru untuk meningkatkan ketelitian/ketepatan proses mining.
Aggregation
Aggregation merupakan operasi untuk summary (peringkasan) yang digunakan untuk data numerik dengan menggunakaan operasi roll up.
Demikianlah pembahasan untuk data transfotmation, artikel data mining berikutnya akan membahas tentang Data Integration. Terima kasih telah membaca artikel kami.
Daftar Pustaka:
H. Junaedi, H. Budianto, I. Maryati, and Y. Melani, “Data Transformation pada data processing ,” Pros. Konf. Nas. Inov. dalam Desain dan Teknol., vol. 7, pp. 93–99, 2011.
H. Lee, “Justifying database normalization: a cost/benefit model,” Inf. Process. Manag., vol. 31, No. 1, pp. 59–67, 1995.
J. Han, M. Kamber, J. Pei, and M. Kaufmann, “[DATA MINING: CONCEPTS AND TECHNIQUES 3RD EDITION] 2 Data Mining: Concepts and Techniques Third Edition,” 2012.
R.S. Wahono.“Data Mining”. 2020.