K-Means
K-means clustering adalah salah satu algoritma analisis klaster (cluster analysis) non hirarki. Analisis klaster merupakan salah satu alat untuk mengelompokkan data berdasarkan variabel atau feature.
Tujuan dari k-means clustering, seperti metode klaster lainnya, adalah untuk mendapatkan kelompok data dengan memaksimalkan kesamaan karakteristik dalam klaster dan memaksimalkan perbedaan antar klaster.
Algoritma K-means clustering mengelompokkan data berdasarkan jarak antara data terhadap titik centroid klaster yang didapatkan melalui proses berulang. Analisis perlu menentukan jumlah K sebagai input algoritma.
Metode algoritma K-means clustering (step by step)
Algoritma K-means clustering dilakukang dengan proses sebagai berikut:
- Langkah 1, tentukan jumlah cluster (k). Dalam contoh ini, kita tetapkan bahwa k =3
- Langkah 2, pilih titik acak sebanyak k. Titik ini merupakan titik seed dan akan menjadi titik centroid proses pertama. Titik ini tidak harus titik data kita
- Langkah 3, label semua data berdasarkan titik centroid terdekat. Semua data diberikan label mengikuti titik centroid dari setiap klaster. Perhitungan jarak ini bisa menggunakan algoritma jarak tertentu, secara default dilakukan dengan euclidean distance
- Langkah 4, tentukan titik centroid baru berdasarkan cluster yang terbentuk. Titik centroid selanjutnya “berpindah” ke lokasi centroid setiap cluster yang telah terbentuk.
- Langkah 5, label ulang data berdasarkan jarak terdekat terhadap centroid baru. Langkah ini merupakan langkah yang sama dengan langkah ketiga. Perhatikan titik data yang diberikan tanda panah, berubah dari cluster merah ke cluster biru.
- Langkah 6, ulangi langkah 4 dan langkah 5 sampai tidak ada pergerakan lagi. Secara berulang, algoritma akan mencari lokasi centroid baru dan melabel data berdasarkan centroid tersebut sampai mendapat hasil final, yaitu tidak ada lagi perpindahan centroid di setiap cluster.
Komentar
Posting Komentar