JENIS DATA STATISTIK YANG JUGA DI GUNAKAN DI DALAM SAINS DATA.
Data adalah komponen paling penting untuk difahami di dalam bidang Sains Data. Data yang betul akan menghasilkan keputusan dan aksi yang betul bagi sesuatu model jangkaan ataupun produk data seperti dashboard.
Mungkin ramai yang telah maklum bahawa model teknologi yang digunakan di dalam sains data adalah berasal daripada implementasi Statistik. Model-model algoritma seperti Linear Regression, Linear Logistik Regression , KNN dan banyak lagi adalah berasal daripada model statistik.
Bezanya ialah, model model ini dapat menguruskan pengiraan data yang banyak di dalam mesin seperti komputer atau server. Sekiranya pengiraan “Big Data” ini dilakukkan pada kertas kajang berdasarkan model statistik tadi, pasti ia memerlukan kertas kajang ini dengan banyak sekali.
Oleh itu pakar teknologi sains komputer dan rakan statistik adalah sangat memerlukan antara satu sama lain.
Akhirnya semua pengiraan ini dapat mengahasilkan produk berasaskan teknologi Kecerdasan Buatan.
Jadi, mari kita lihat apakah jenis data-data yang digunakan dalam bidang sains data ini.
Pengenalan Jenis Data
Pemahaman yang baik mengenai berbagai jenis data yang juga disebut skala pengukuran, adalah prasyarat penting untuk melakukan Analisis Data Eksploratori (EDA).
Ini adalah kerana kita hanya dapat menggunakan pengukuran tertentu hanya untuk jenis data tertentu.
Kita juga perlu mengetahui jenis data untuk kita memilih visualisasi yang betul bagi memvisualkan data itu.
Selain itu mengetahui jenis data juga penting mengkategorikan jenis pemboleh ubah.
1.1. Data Berjenis Kategori
Data berjenis kategori mewakili ciri. Sebagai contoh, ia dapat mewakili perkara seperti jantina, bahasa dan lain-lain.
L= Lelaki.
P=Perempuan.
Data berjenis kategori kadangkala juga dapat akan angka sebagai perwakilan (Contoh: 1 untuk wanita dan 0 untuk lelaki). Namun begitu angka-angka ini tidak mempunyai makna atau nilai matematik.
Data berjenis kategori ini adalah dalam bentuk kualitatif.
Terdapat dua jenis data berjenis kategori iaitu data nominal dan data ordinal.
1.1.1. Data Nominal
Definisi Data Nominal: Data nominal adalah bentuk data yang paling ringkas, dan didefinisikan sebagai data yang digunakan untuk penamaan atau pelabelan pemboleh ubah.
Nilai nominal mewakili unit diskrit dan digunakan untuk melabel pemboleh ubah.
Data nominal tidak mempunyai susunan. Oleh itu, jika anda mengubah
susunan nilainya, maknanya tidak akan berubah.
Data Nominal diperhatikan, tidak diukur, tidak tersusun, tidak sama jarak dan tidak mempunyai nilai sifar yang bermakna.
Kita dapat membezakan antara kategori hanya berdasarkan nama mereka, malahan
tajuk ‘nominal’ adalah dari bahasa Latin iaitu nomen Latin, yang bermaksud ‘nama’.
Contoh Data Nominal
a) Jantina (Lelaki Perempuan)
b) Kewarganegaraan (Malaysia, British, Amerika, Sepanyol, …)
c) Warna kegemaran (merah, hijau, biru, …)
1.1.2. Data Ordinal
Definasi Data Ordinal: Data ordinal adalah sejenis data kategori di mana nilainya mengikut susunan semula jadi.
Contoh Data Ordinal
a) Kesihatan (sihat, sakit)
b) Pendapat (setuju, kebanyakan setuju, berkecuali, kebanyakan tidak setuju, tidak setuju)
c) Gred Tumor (1, 2, 3)
d) Tahap Tumor (I, IIA, IIB, IIIA, IIIB, dll.)
e) Tahap kepuasan perkhidmatan ( Sangat Puas Hati, Puas Hati, Sederhana, Tidak Puas Hati, Sangat Tidak Puas Hati)
1.2. Data Berjenis Berangka
Data berangka adalah jenis data yang dinyatakan dalam angka.
Kadang-kadang ia disebut data kuantitatif.
Data berangka selalu dikumpulkan dalam bentuk nombor. Data berangka membezakan dirinya dari jenis data bentuk nombor lain dengan kemampuannya menjalankan operasi aritmetik dengan nombor-nombor ini.
Sebagai contoh, data berangka ialah bilangan pelajar lelaki dan pelajar perempuan di dalam sebuah kelas, kemudian bilangan pelajar lelaki dan pelajar perempuan ditambahkan bersama untuk mendapatkan jumlah pelajar di kelas tersebut. Ciri ini adalah salah satu cara utama untuk mengenal pasti data berangka.
Terdapat dua jenis data berjenis berangka data diskrit dan berterusan (continuous).
Data diskrit mewakili item yang dapat dikira.
Data berterusan adalah jenis data berangka yang diukur secara berterusan.
Data berterusan terbahagi kepada data yang diukur secara berjeda dan diukur secara nisbah, yang diketahui digunakan untuk mengukur item.
1.2.1. Data Diskrit
Data Diskrit mewakili item yang dapat dikira. Ia memerlukan nilai-nilai yang dapat dikelompokkan ke dalam senarai, di mana senarai itu mungkin terbatas atau tidak terbatas.
Data diskrit mengambil kira bilangan seperti 1 hingga 10 atau 1 hingga tak terhingga.
Contoh data diskrit ialah perbezaan mengira jumlah murid dialam sesebuah kelas dan mengira jumlah pasir yang terdapat pada pantai.
1.2.2. Data Berterusan (Continuous)
Data berterusan adalah data yang dapat mengambil nilai apa pun yang diukur secara berterusan.
Sebagai contoh ialah Tinggi, berat, suhu dan panjang adalah semua contoh data selanjar.
Data berterusan juga boleh berubah dari masa ke masa. Contohnya berat bayi pada tahun pertama atau suhu di dalam bilik sepanjang hari.
Data ini paling baik ditunjukkan pada graf secara garis kerana jenis graf ini dapat menunjukkan bagaimana data berubah dalam jangka masa tertentu.
Contoh data berterusan lain ialah seperti ketinggian sekumpulan kanak-kanak pada satu hari tertentu, sering dikelompokkan ke dalam kategori untuk menjadikannya lebih mudah ditafsirkan.
Data berjenis berterusan ini terbahagi pula kepada dua iaitu data berjeda dan data bernisbah.
1.2.3. Data Berjeda
Data Berjeda adalah jenis data yang diukur secara skala, di mana setiap titik diletakkan pada jarak yang sama antara satu sama lain.
Data Berjeda mengambil nilai berangka yang hanya dapat melakukan operasi penambahan dan pengurangan.
Sebagai contoh, suhu badan yang diukur dalam darjah Celsius atau darjah Fahrenheit dianggap sebagai data berjeda.
1.2.4. Data Bernisbah
Data nisbah memberitahu kita mengenai urutan pemboleh ubah, perbezaan di antara nilai di dalam.
Data bernisbah mempunyai sifar mutlak yang membolehkan segala macam pengiraan dan kesimpulan dapat dilakukan dan dibuat.
Data nisbah adalah sama seperti data berjeda,tetapi data berjeda tidak mempunya sifar mutlak. Jadi untuk data bernisbah, tidak mungkin mempunyai nilai negatif.
Sebagai contoh, ketinggian adalah data nisbah. Tidak mungkin mempunyai ketinggian negatif.
Sekiranya ketinggian objek adalah sifar, maka tidak ada objek.
Ini berbeza dengan suhu. Kedua-dua 0 darjah dan -5 darjah benar-benar berlaku dan ia adalah nilai suhu bermakna.
1.2.4.1. Ciri Data Bernisbah
a) Data bernisbah hendaklah boleh diukur.
b) Data bernisbah hendaklah boleh disusun secara berturutan.
c) Data bernisbah hendaklah boleh disusun dengan item jarak yang sama
d) Data bernisbah hendaklah mempunyai sifar yang bermakna
Contoh data jenis bernisbah.
Berapakah berat badan anda dalam kilogram?
a) Kurang daripada 50 kilogram
b) 51- 70 kilogram
c) 71- 90 kilogram
d) 91–110 kilogram
e) Lebih daripada 110 kilogram
Sekarang anda telah mempunyai pengetahuan asas mengenai jenis data. Selamat menempuh cabaran di dalam sains data.