Machine learning adalah cabang dari kecerdasan buatan atau artificial intelligence (AI) dan ilmu komputer yang fokus pada penggunaan data dan algoritma untuk meniru cara manusia belajar.
Secara sederhana, machine learning mengimplementasikan komputer untuk mempelajari pola data berdasarkan statistik datanya dengan tujuan akhir untuk menghasilkan prediksi yang akurat tanpa perlu memberikan instruksi secara eksplisit.
Terdapat beberapa jenis machine learning, antara lain supervised learning, unsupervised learning, semisupervised learning dan reinforcement learning. Kita akan belajar tentang semua itu lebih dalam lagi di materi khusus.
Sebelum ke pembahasan tersebut, mari kita pelajari terlebih dahulu mengenai tipe-tipe data dalam kasus machine learning.
Tipe Data dalam Machine Learning
Dalam menganalisis data, sangat penting bagi kita untuk mengetahui tipe datanya. Secara umum terdapat tiga jenis tipe data dalam kasus machine learning, yaitu:
- Numerical
- Categorical
- Ordinal
Tipe Data Numerical
Tipe data numerik adalah tipe data bilangan atau angka yang dapat dibagi ke dalam dua jenis:
1. Data Diskrit
Data diskrit adalah data yang terbatas pada bilangan bulat saja atau yang cenderung bisa dihitung. Contoh data diskrit yaitu jumlah mobil yang terdapat di tempat parkir, jumlah data siswa di kelas A, dll.
2. Data Kontinu
Data kontinu adalah data yang mimiliki nilai tak terhingga, bisa berupa bilangan bulat, bisa juga bilangan desimal. Contoh data kontinu yaitu harga mobil tipe A, panjang lintasan, dll.
Tipe Data Categorical
Tipe data kategorik adalah nilai yang tidak dapat diukur, umumnya berupa data yang menjelaskan karakteristik sehingga dapat dikelompokkan sebagai kategori atau kelas.
Contoh data kategorik yaitu jenis kelamin, mata uang, bahasa, dll.
Tipe Data Ordinal
Tipe data ordinal adalah tipe data yang mirip dengan data kategorik, tetapi masih bisa diukur. Contoh tipe data ordinal yaitu nilai belajar di sekolah yang menggunakan basis nilai huruf A, B, C, D, dan E.
Kenapa dikategorikan sebagai data ordinal?
Karena nilai huruf tersebut bisa diukur satu sama lain. Di mana A lebih baik daripada B, B lebih baik daripada C dan seterusnya.
Dengan mengetahui tipe data yang kamu miliki, nantinya kamu akan dengan mudah menentukan teknik apa yang akan digunakan untuk menganalisisnya. Pada akhirnya, kamu pun akan dengan mudah memilih algoritma machine learning yang tepat untuk digunakan berdasarkan keadaan data yang ada.