Di kasus nyata dalam proses analisis data, salah satu masalah yang seringkali ditemui yaitu data tidak merepresentasikan keadaan sesungguhnya.
Hal ini terjadi akibat dari keberadaan data ekstrim di dalam sekumpulan data yang kita miliki. Data ekstrim tersebut biasanya memiliki ciri utama tidak seperti kumpulan data lainnya.
Keberadaan data ekstrim tanpa adanya perlakuan khusus ketika proses analisis data tentu saja dapat menyebabkan kesalahan pada hasil analisis hingga kesalahan pengambilan keputusan.
Dalam artikel ini, kita akan belajar cara mendeteksi outlier dari suatu dataset dengan menggunakan metode-metode statistik yang terbukti secara ilmiah. Silahkan disimak sampai selesai.
Apa itu Otlier?
Outlier adalah sekumpulan data yang berbeda dari kumpulan dataset utamanya. Dengan kata lain, outlier merupakan observasi yang menyimpang dari sampel lainnya dan tampak tidak mengikuti pola umum.
Beberapa penyebab terjadinya outlier antara lain:
- Pengukuran atau keluaran yang salah.
- Kerusakan dari data.
- Pengamatan outlier yang sebenarnya.
Mengapa Outlier Penting?
Outlier tidaklah selalu buruk; terkadang keberadaan outlier ini justru menjadi petunjuk penting dalam analisis data.
Tugas seorang analis adalah memahami kapan outlier harus diabaikan, diperbaiki, atau dipertahankan untuk analisis lebih lanjut.
Memahami outlier dalam analisis data sangatlah penting karena dapat memengaruhi hasil analisis. Adapun dua hal yang paling berpengaruh akibat keberadaan outlier yaitu:
Mengubah Statistik Utama
Rata-rata dari sebaran data bisa menjadi tidak representatif. Contoh, pendapatan bulanan dari suatu kelompok yaitu 4, 5, 5, 6, 6, 50 (dalam juta).
Jika kita gunakan statistik dasar untuk menghitung rata-rata pendapatan bulanan kelompok tersebut, maka rata-ratanya diperoleh 12.6.
Nilai tersebut tentu saja tidak merepresentasikan keadaan data. Hal ini akibat adanya data ekstrim yaitu 50 yang menyebabkan perubahan signifikan secara statistik.
Mengungkap Pola atau Kesalahan
Kehadiran outlier dalam suatu data juga bisa menjadi indikasi kesalahan pada data, misalnya human error seperti salah input.
Selain itu outlier juga bisa jadi insight baru, misalnya untuk mendeteksi pola data yang tidak wajar.
Dampak Outlier pada Analisis Data
Outlier memiliki dampak yang signifikan dalam analisis data, baik dari segi interpretasi maupun hasil akhir. Berikut adalah beberapa dampak utama outlier pada analisis data.
Membuat Model Prediksi Kurang Akurat
Analisis data yang melibatkan machine learning model prediksi dengan data yang mengandung outlier tanpa diolah dengan baik tentu akan menjadi penyebab utama model kurang akurat.
Hal ini karena outlier yang tidak diinginkan dapat memengaruhi algoritma pembelajaran mesin atau statistik sehingga menunjukkan kinerja yang buruk terhadap data ekstrem.
Kesalahan Interpretasi Data
Analis yang tidak memahami outlier dengan baik pada data yang dimilikinya akan sangat rawan dalam menginterpretasikan data.
Hal ini karena outlier dapat menciptakan ilusi adanya hubungan (korelasi) atau tren yang sebenarnya tidak ada. Selain itu keberadaan outlier bahkan bisa jadi menyebabkan pola yang sesungguhnya menjadi tidak tampak.
Oleh karena itu, common sense yang dimiliki analis sangatlah berperan penting ketika menginterpretasikan data yang mengandung outlier.
Membebani Algoritma dan Komputasi
Ketika berurusan dengan dataset besar, keberadaan outlier dapat membuat analisis lebih lambat atau lebih rumit. Bayangkan dari 100% dataset jika saja 50% nya outlier, maka beban komputasi menjadi lebih besar.
Kita mungkin perlu menerapkan metode-metode untuk mengidentifikasi keberadaan outlier tersebut, sehingga membutuhkan langkah tambahan dalam analisis.
Cara Menemukan Data Outlier
Menemukan dan menghapus outlier dari suatu data sangatlah penting dalam analisis data. Namun sayangnya tidak ada cara yang benar-benar presisi untuk mendeteksi outlier.
Walaupun begitu, pendekatan metode statistik yang terbukti secara ilmiah bisa dijadikan acuan untuk mendeteksi adanya outlier pada suatu data.
Tiga metode statistik yang paling umum untuk mengidentifikasi outlier yaitu:
- Metode visualisasi, misalkan dengan boxplot, histogram.
- Metode standar deviasi, melihat melalui simpang rata-rata data.
- Metode interquartile range, memanfaatkan batas kuartil untuk menemukan outlier.
Menemukan Outlier dengan Metode Standar Deviasi
Jika kita mengetahui bahwa distribusi data yang kita miliki terdistribusi normal, metode standar deviasi bisa jadi opsi untuk menemukan outlier dan menghapusnya dari dataset jika perlu.
Cara mengidentifikasi outlier dengan metode standar deviasi kurang lebih seperti berikut.
- Hitung nilai rata-rata data.
- Hitung nilai standar deviasi data.
- Tentukan cut-off untuk menemukan outlier.
- Hitung nilai minimum dan maksimum range data diasumsikan sudah tanpa outlier.
- Temukan data outlier.
Mendeteksi Outlier dengan Metode Interquartile Range (IQR)
Jika data yang kita miliki tidak terdistribusi normal, metode IQR untuk menemukan outlier akan sangat berguna. Hal ini karena metode Interquartile Range tidak begitu terpengaruh oleh nilai ekstrim.
Cara mengidentifikasi outlier dengan metode interquartile range yaitu,
- Urutkan data secara ascending (kecil ke besar).
- Tentukan kuartil pertama (Q1) dan kuartil ketiga (Q3).
- Hitung IQR (Interquartile Range), IQR = Q3 - Q1.
- Hitung batas atas (Q3 + 1.5 IQR) dan batas bawah (Q1 - 1.5 IQR).
- Identifikasi outlier.