Langsung ke konten utama

Unggulan

Metric untuk Mengevaluasi Model Machine Learning

  Agar dapat menentukan model mana yang paling baik dari beberapa model yang telah dibuat dalam machine learning dapat menggunakan salah satu teknik yaitu confusion matrix.  Confusion Matrix  Confusion matrix juga sering disebut error matrix. Pada dasarnya confusion matrix memberikan informasi perbandingan hasil klasifikasi yang dilakukan oleh sistem (model) dengan hasil klasifikasi sebenarnya. Confusion matrix berbentuk tabel matriks yang menggambarkan kinerja model klasifikasi pada serangkaian data uji yang nilai sebenarnya diketahui. True Positive (TP)              Merupakan data positif yang diprediksi benar.  True Negative (TN)              Merupakan data negatif yang diprediksi benar.  False Postive (FP) — Type I Error              Merupakan data negatif namun diprediksi sebagai data positif.  False Negative (FN) — Type II Error ...

Machine Learning dengan Algoritma K-Means




K-Means


K-means clustering adalah salah satu algoritma analisis klaster (cluster analysis) non hirarki. Analisis  klaster  merupakan  salah  satu  alat  untuk  mengelompokkan  data berdasarkan variabel atau feature.
Tujuan dari k-means clustering, seperti metode klaster lainnya, adalah untuk mendapatkan kelompok data dengan memaksimalkan kesamaan karakteristik dalam klaster dan memaksimalkan perbedaan antar klaster. 
Algoritma K-means clustering mengelompokkan data berdasarkan jarak antara data terhadap titik centroid klaster yang didapatkan melalui proses berulang. Analisis perlu menentukan jumlah K sebagai input algoritma.

Metode algoritma K-means clustering (step by step)

Algoritma K-means clustering dilakukang dengan proses sebagai berikut:
  1. Langkah 1, tentukan jumlah cluster (k). Dalam contoh ini, kita tetapkan bahwa k =3 
  2. Langkah 2, pilih titik acak sebanyak k. Titik ini merupakan titik seed dan akan menjadi titik centroid proses pertama. Titik ini tidak harus titik data kita
  3. Langkah 3, label semua data berdasarkan titik centroid terdekat. Semua data diberikan label mengikuti titik centroid dari setiap klaster. Perhitungan jarak ini bisa menggunakan algoritma jarak tertentu, secara default dilakukan dengan euclidean distance
  4. Langkah 4, tentukan titik centroid baru berdasarkan cluster yang terbentuk. Titik centroid selanjutnya “berpindah” ke lokasi centroid setiap cluster yang telah terbentuk.
  5. Langkah 5, label ulang data  berdasarkan jarak terdekat terhadap centroid baru. Langkah ini merupakan langkah yang sama dengan langkah ketiga. Perhatikan titik data yang diberikan tanda panah, berubah dari cluster merah ke cluster biru.
  6. Langkah 6, ulangi langkah 4 dan langkah 5 sampai tidak ada pergerakan lagi. Secara berulang, algoritma akan mencari lokasi centroid baru dan melabel data berdasarkan centroid tersebut sampai mendapat hasil final, yaitu tidak ada lagi perpindahan centroid di setiap cluster.

Komentar

Postingan Populer