# **Tugas 4 | Implementasi K-Means Clustering**

## K-Means Clustering

K-Means Clustering adalah salah satu algoritma dalam menentukan klasifikasi terhadap objek berdasarkan attribut / fitur dari objek tersebut kedalam K kluster/partisi. K adalah angka positif yang menyatakan jumlah grup/kluster partisi terhadap objek. Pemartisian data dilakukan dengan mencari nilai jarak minimum antara data dan nilai ***centroid*** yang telah di set baik secara random atau pun dengan ***Initial Set of Centroids***, kita juga dapat menentukan nilai centroid berdasarkan ***K object*** yang berurutan

***Centroid*** adalah nilai rata-rata aritmetik dari sebuah bentuk objek dari seluruh titik dalam objek tersebut. Penerapan K-Means Clustering ini dapat dilakukan dengan prosedur step by step berikut :

- Siapkan data training berbentuk vector.
- Set nilai K cluster.
- Set nilai awal centroids.
- Hitung jarak antara data dan centroid menggunakan rumus ***Euclidean Distance***.
 
  Rumus Menghitung Jarak :

  > $ùôô(p,q) =  \sqrt {Œ£_{i=1}^{n}(q_i - p_i)^2} $
  
  ```
  ket :
    p,q	    =	dua titik di ruang-n Euclidean
    qi,pi    =	vektor Euclidean, dimulai dari asal ruang (titik awal)
    n        =	ruang-n

  ```
  
  
- Partisi data berdasarkan nilai minimum.
- Kemudian lakukan iterasi selama partisi data masih bergerak (tidak ada lagi objek yang bergerak ke partisi lain), bila masih maka ke poin 3.
- Bila grup data sekarang sama dengan grup data sebelumnya, maka hentikan iterasi.
- Data telah dipartisi sesuai nilai centroid akhir.

## Implementasi ke Bahasa Pemrograman Python

### Persiapan data

Data yang akan digunakan adalah data iris, yang dapat diperoleh [disini](https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data).

In [None]:
import numpy as np  
import matplotlib.pyplot as plt  
import pandas as pd

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
#the imported dataset does not have the required column names so lets add it
colnames = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']
irisdata = pd.read_csv(url, names=colnames)
irisdata

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


### Mengubah Label menjadi angka

In [None]:
irisdata['Class'] = pd.Categorical(irisdata["Class"])
irisdata["Class"] = irisdata["Class"].cat.codes
irisdata

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width,Class
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


### Menentukan Attribute yang akan dipakai

Pada kasus ini menggunakan `attribute` dari 0 sampai 4

In [None]:
x = irisdata.values[:, 0:4]
y = irisdata.values[:, 4]
# delete 'variety' column
df_without_label = irisdata.drop(columns=["Class"])
df_without_label

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


### Menentukan Cluster dan Menghitung jarak

Pada Kasus ini, cluster yang ditentukan adalah **3**

In [None]:
from sklearn.cluster import KMeans
from sklearn import preprocessing
from sklearn.metrics import accuracy_score

# Number of clusters
kmeans = KMeans(n_clusters=3)
# Fitting the input data
kmeans = kmeans.fit(x)
# Getting the cluster labels
labels = kmeans.predict(x)
# Centroid values
centroids = kmeans.cluster_centers_
hasil = kmeans.fit_transform(x)
hasil

array([[0.14694217, 3.41925061, 5.0595416 ],
       [0.43816892, 3.39857426, 5.11494335],
       [0.41230086, 3.56935666, 5.27935534],
       [0.51883716, 3.42240962, 5.15358977],
       [0.19796969, 3.46726403, 5.10433388],
       [0.68380699, 3.14673162, 4.68148797],
       [0.41520116, 3.51650264, 5.21147652],
       [0.0599333 , 3.33654987, 5.00252706],
       [0.80099438, 3.57233779, 5.32798107],
       [0.36659514, 3.3583767 , 5.06790865],
       [0.48784424, 3.32449131, 4.89806763],
       [0.25138019, 3.31126872, 4.9966845 ],
       [0.49192682, 3.46661272, 5.19103612],
       [0.90906105, 3.90578362, 5.65173594],
       [1.02019214, 3.646649  , 5.10804455],
       [1.21309192, 3.49427881, 4.88564095],
       [0.66241377, 3.495248  , 5.03090587],
       [0.1509702 , 3.38444981, 5.02342022],
       [0.82848778, 3.11245944, 4.61792995],
       [0.39898872, 3.37738931, 4.97213426],
       [0.46172719, 3.07471224, 4.6955761 ],
       [0.33762701, 3.31506588, 4.9236821 ],
       [0.

### Mengklasifikasikan Hasil

In [None]:
labels
if(labels[1] == 0):
    print(labels)
elif labels[57] ==2:
  # print(labels)
  mapping = {0:2, 1:0, 2:1}
  a = [mapping[i] for i in labels]
  print(a,end='')
elif labels[1]==1:
  mapping = {0:1, 1:0, 2:2}
  a = [mapping[i] for i in labels]
  print(a,end='')

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 2 2 2 1 2 2 2 2
 2 2 1 1 2 2 2 2 1 2 1 2 1 2 2 1 1 2 2 2 2 2 1 2 2 2 2 1 2 2 2 1 2 2 2 1 2
 2 1]


### Menghitung Akurasi



Rumus Menghitung akurasi:
> $Akurasi = {{TP + TN}\over Total Data} * 100 \% $

```
  Ket:
  TP  = Jumlah data yang terklasifikasi True Positive
  TN  = Jumlah data yang terklasifikasi True Negative
  Jumlah Data = Jumlah data keseluruhan
``` 



Akurasi yang diperoleh dari hasil ***K-mean Clustering*** dengan data uji acak pada kasus ini sebesar:

In [None]:
# rumus akurasu
if(labels[1] == 0):
    accuracy = accuracy_score(y, labels)
elif labels[55]==2:
    accuracy = accuracy_score(y, a)
elif labels[1]==1:
    accuracy = accuracy_score(y, a)

accuracy

0.8933333333333333