Perhitungan Manual K-Nearest Neighbors (KNN) untuk Klasifikasi Penyakit Kucing

Project AI Januari 29, 2025 0 126 Tambahkan ke Daftar Bacaan

Perhitungan Manual K-Nearest Neighbors (KNN) untuk Klasifikasi Penyakit Kucing

1. Dataset yang Digunakan

Umur Hewan	Jenis Kelamin	Lingkungan	Pola Makan	Kontak Hewan Sakit	Gejala 1	Gejala 2	Durasi Gejala	Tingkat Keparahan	Jenis Penyakit
3 tahun	Jantan	Indoor	Tidak Seimbang	Ada	Kulit Kemerahan	Kulit Kasar	7 hari	4	Menular
2 tahun	Jantan	Outdoor	Tidak Seimbang	Ada	Bulu Rontok	Kulit Korengan	10 hari	4	Menular
5 tahun	Betina	Indoor	Seimbang	Tidak Ada	Hidung Berair	Bersin-Bersin	3 hari	1	Tidak Menular
1 tahun	Jantan	Indoor	Tidak Seimbang	Tidak Ada	PUP Cair	Lemas	2 hari	1	Tidak Menular

2. Konversi Data Kategorikal ke Numerik

Jenis Kelamin: Jantan = 1, Betina = 0
Lingkungan: Indoor = 0, Outdoor = 1
Pola Makan: Seimbang = 0, Tidak Seimbang = 1
Kontak Hewan Sakit: Ada = 0, Tidak Ada = 1
Jenis Penyakit (Target): Menular = 0, Tidak Menular = 1

Setelah konversi, data menjadi:

Umur Hewan	Jenis Kelamin	Lingkungan	Pola Makan	Kontak Hewan Sakit	Gejala 1	Gejala 2	Durasi Gejala	Tingkat Keparahan	Jenis Penyakit
3	1	0	1	0	3	1	7	4	0
2	1	1	1	0	0	2	10	4	0
5	0	0	0	1	2	0	3	1	1
1	1	0	1	1	5	5	2	1	1

3. Normalisasi Data

Data perlu dinormalisasi agar memiliki skala yang sama. Gunakan rumus:

$X' = \frac{X - X_{min}}{X_{max} - X_{min}}$

Setelah normalisasi, kita menghitung jarak Euclidean.

4. Perhitungan Jarak Euclidean

Rumus untuk menghitung jarak Euclidean antara dua titik:

$D(A, B) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}$

Misalkan kita ingin mengklasifikasikan kucing baru dengan fitur:

Umur Hewan	Jenis Kelamin	Lingkungan	Pola Makan	Kontak Hewan Sakit	Gejala 1	Gejala 2	Durasi Gejala	Tingkat Keparahan
4 tahun	Jantan	Indoor	Tidak Seimbang	Tidak Ada	Hidung Berair	Bersin-Bersin	5 hari	2

Konversi ke numerik:

| 4 | 1 | 0 | 1 | 1 | 2 | 0 | 5 | 2 |

Menghitung jarak Euclidean ke setiap titik dalam dataset menggunakan rumus:

$D = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + ... + (x_n - y_n)^2}$

Misalnya, jarak ke data pertama:

$D = \sqrt{(4-3)^2 + (1-1)^2 + (0-0)^2 + (1-1)^2 + (1-0)^2 + (2-3)^2 + (0-1)^2 + (5-7)^2 + (2-4)^2}$ $D = \sqrt{1 + 0 + 0 + 0 + 1 + 1 + 1 + 4 + 4}$ $D = \sqrt{12} \approx 3.46$

5. Menentukan K dan Prediksi

Jika K = 3, kita memilih 3 tetangga terdekat. Setelah menghitung jarak ke semua titik, kita melihat mayoritas kelasnya. Jika lebih banyak "Menular", maka prediksi adalah Menular.

Dari hasil perhitungan, jika mayoritas tetangga terdekat memiliki penyakit Menular, maka kucing baru diprediksi juga memiliki penyakit Menular.

6. Metode kdd

Metode Knowledge Discovery in Databases (KDD) adalah suatu proses yang digunakan untuk menemukan pola atau informasi yang bermakna dari kumpulan data yang besar. Proses ini terdiri dari beberapa tahap utama yang dilakukan secara sistematis untuk mengubah data mentah menjadi pengetahuan yang dapat digunakan.

Tahapan Metode KDD

Pemilihan Data (Data Selection)
- Memilih data yang relevan untuk dianalisis dari berbagai sumber seperti database, sensor, atau hasil survei.
- Data yang digunakan harus sesuai dengan tujuan penelitian.
Preprocessing Data
- Melakukan pembersihan data untuk menghilangkan duplikasi, mengisi nilai yang hilang, dan memperbaiki inkonsistensi.
- Data yang bersih akan meningkatkan akurasi analisis dan klasifikasi.
Transformasi Data (Data Transformation)
- Mengonversi data ke dalam format yang sesuai untuk analisis lebih lanjut.
- Normalisasi dan reduksi dimensi dilakukan agar data lebih terstruktur dan dapat dibandingkan secara efektif.
Penerapan Algoritma Data Mining
- Proses inti dalam metode KDD, di mana algoritma seperti K-Nearest Neighbors (KNN) diterapkan untuk menemukan pola dan hubungan dalam data.
- Algoritma ini akan digunakan untuk klasifikasi, prediksi, atau clustering berdasarkan data yang telah diproses sebelumnya.
Evaluasi Pola (Pattern Evaluation)
- Menilai hasil yang diperoleh dari tahap data mining dengan menggunakan metrik evaluasi seperti akurasi, precision, recall, dan F1-score.
- Jika hasilnya kurang memadai, tahap preprocessing atau transformasi data dapat diperbaiki dan diulang.
Representasi Pengetahuan (Knowledge Representation)
- Menyajikan hasil analisis dalam bentuk yang dapat dipahami, seperti laporan, visualisasi data, atau model prediksi.
- Informasi yang diperoleh dapat digunakan untuk pengambilan keputusan lebih lanjut.

Metode KDD ini membantu dalam mendapatkan wawasan yang lebih mendalam dari data dan memastikan bahwa proses analisis berbasis pada pendekatan yang sistematis dan terstruktur.