Perhitungan Manual K-Nearest Neighbors (KNN) untuk Klasifikasi Penyakit Kucing

Perhitungan Manual K-Nearest Neighbors (KNN) untuk Klasifikasi Penyakit Kucing

Perhitungan Manual K-Nearest Neighbors (KNN) untuk Klasifikasi Penyakit Kucing

1. Dataset yang Digunakan

Umur Hewan Jenis Kelamin Lingkungan Pola Makan Kontak Hewan Sakit Gejala 1 Gejala 2 Durasi Gejala Tingkat Keparahan Jenis Penyakit
3 tahun Jantan Indoor Tidak Seimbang Ada Kulit Kemerahan Kulit Kasar 7 hari 4 Menular
2 tahun Jantan Outdoor Tidak Seimbang Ada Bulu Rontok Kulit Korengan 10 hari 4 Menular
5 tahun Betina Indoor Seimbang Tidak Ada Hidung Berair Bersin-Bersin 3 hari 1 Tidak Menular
1 tahun Jantan Indoor Tidak Seimbang Tidak Ada PUP Cair Lemas 2 hari 1 Tidak Menular

2. Konversi Data Kategorikal ke Numerik

  • Jenis Kelamin: Jantan = 1, Betina = 0
  • Lingkungan: Indoor = 0, Outdoor = 1
  • Pola Makan: Seimbang = 0, Tidak Seimbang = 1
  • Kontak Hewan Sakit: Ada = 0, Tidak Ada = 1
  • Jenis Penyakit (Target): Menular = 0, Tidak Menular = 1

Setelah konversi, data menjadi:

Umur Hewan Jenis Kelamin Lingkungan Pola Makan Kontak Hewan Sakit Gejala 1 Gejala 2 Durasi Gejala Tingkat Keparahan Jenis Penyakit
3 1 0 1 0 3 1 7 4 0
2 1 1 1 0 0 2 10 4 0
5 0 0 0 1 2 0 3 1 1
1 1 0 1 1 5 5 2 1 1

3. Normalisasi Data

Data perlu dinormalisasi agar memiliki skala yang sama. Gunakan rumus:

X=XXminXmaxXminX' = \frac{X - X_{min}}{X_{max} - X_{min}}

Setelah normalisasi, kita menghitung jarak Euclidean.

4. Perhitungan Jarak Euclidean

Rumus untuk menghitung jarak Euclidean antara dua titik:

D(A,B)=i=1n(xiyi)2D(A, B) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}

Misalkan kita ingin mengklasifikasikan kucing baru dengan fitur:

Umur Hewan Jenis Kelamin Lingkungan Pola Makan Kontak Hewan Sakit Gejala 1 Gejala 2 Durasi Gejala Tingkat Keparahan
4 tahun Jantan Indoor Tidak Seimbang Tidak Ada Hidung Berair Bersin-Bersin 5 hari 2

Konversi ke numerik:

| 4 | 1 | 0 | 1 | 1 | 2 | 0 | 5 | 2 |

Menghitung jarak Euclidean ke setiap titik dalam dataset menggunakan rumus:

D=(x1y1)2+(x2y2)2+...+(xnyn)2D = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + ... + (x_n - y_n)^2}

Misalnya, jarak ke data pertama:

D=(43)2+(11)2+(00)2+(11)2+(10)2+(23)2+(01)2+(57)2+(24)2D = \sqrt{(4-3)^2 + (1-1)^2 + (0-0)^2 + (1-1)^2 + (1-0)^2 + (2-3)^2 + (0-1)^2 + (5-7)^2 + (2-4)^2} D=1+0+0+0+1+1+1+4+4D = \sqrt{1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4} D=123.46D = \sqrt{12} \approx 3.46

5. Menentukan K dan Prediksi

Jika K = 3, kita memilih 3 tetangga terdekat. Setelah menghitung jarak ke semua titik, kita melihat mayoritas kelasnya. Jika lebih banyak "Menular", maka prediksi adalah Menular.

Dari hasil perhitungan, jika mayoritas tetangga terdekat memiliki penyakit Menular, maka kucing baru diprediksi juga memiliki penyakit Menular.


6. Metode kdd

Metode Knowledge Discovery in Databases (KDD) adalah suatu proses yang digunakan untuk menemukan pola atau informasi yang bermakna dari kumpulan data yang besar. Proses ini terdiri dari beberapa tahap utama yang dilakukan secara sistematis untuk mengubah data mentah menjadi pengetahuan yang dapat digunakan.

Tahapan Metode KDD

  1. Pemilihan Data (Data Selection)

    • Memilih data yang relevan untuk dianalisis dari berbagai sumber seperti database, sensor, atau hasil survei.
    • Data yang digunakan harus sesuai dengan tujuan penelitian.
  2. Preprocessing Data

    • Melakukan pembersihan data untuk menghilangkan duplikasi, mengisi nilai yang hilang, dan memperbaiki inkonsistensi.
    • Data yang bersih akan meningkatkan akurasi analisis dan klasifikasi.
  3. Transformasi Data (Data Transformation)

    • Mengonversi data ke dalam format yang sesuai untuk analisis lebih lanjut.
    • Normalisasi dan reduksi dimensi dilakukan agar data lebih terstruktur dan dapat dibandingkan secara efektif.
  4. Penerapan Algoritma Data Mining

    • Proses inti dalam metode KDD, di mana algoritma seperti K-Nearest Neighbors (KNN) diterapkan untuk menemukan pola dan hubungan dalam data.
    • Algoritma ini akan digunakan untuk klasifikasi, prediksi, atau clustering berdasarkan data yang telah diproses sebelumnya.
  5. Evaluasi Pola (Pattern Evaluation)

    • Menilai hasil yang diperoleh dari tahap data mining dengan menggunakan metrik evaluasi seperti akurasi, precision, recall, dan F1-score.
    • Jika hasilnya kurang memadai, tahap preprocessing atau transformasi data dapat diperbaiki dan diulang.
  6. Representasi Pengetahuan (Knowledge Representation)

    • Menyajikan hasil analisis dalam bentuk yang dapat dipahami, seperti laporan, visualisasi data, atau model prediksi.
    • Informasi yang diperoleh dapat digunakan untuk pengambilan keputusan lebih lanjut.

Metode KDD ini membantu dalam mendapatkan wawasan yang lebih mendalam dari data dan memastikan bahwa proses analisis berbasis pada pendekatan yang sistematis dan terstruktur.

Apa Reaksi Anda?

like

dislike

love

funny

angry

sad

wow