Centroid-based Approach๋ k-Means ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ๊ธฐ์กด์ Hierachicalํ ๋ฐฉ์์ด Time๊ณผ Space๊ฐ ๋๋ฌด ๋ง์ด ์์๋๋ค๋ ์ ์ ์ฐฉ์ํ์ฌ ๋ฑ์ฅํ๋ค. ์ข ๋ ํจ์จ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ Clustering ๋ฐฉ์์ด ํ์ํ๋ค.
k-Means์ ์ฅ์ ์ ์ดํดํ๊ณ ๊ตฌํํ๊ธฐ ์ฝ๋ค๋ ๊ฒ์ด์ง๋ง ์ค์ง local minimun๋ง์ด ์ป์ด์ง๋ค๋ ๊ฒ์ด ๋จ์ ์ด๋ค. ๋ํ ์ด๊ธฐํํ๊ธฐ ํ๋ค๊ณ outlier์ ๋ฏผ๊ฐํ๋ค๋ ๊ฒ์ด๋ค.
k-Means ์๊ณ ๋ฆฌ์ฆ์ ์์ด๋์ด์ ๋ํด ์์๋ณด์. ๊ฐ๊ฐ์ ๋ฐ์ดํฐ๋ค์ด ๊ฐ๊ฐ์ Cluster๋ก ๋ ๋ฆฝ์ ์ผ๋ก ํ ๋น์ํจ๋ค. Dissimilariy ๋ฐฉ์์ผ๋ก ๊ฑฐ๋ฆฌ ์ธก์ ๋ฐฉ์์ ์ ์ํ๊ณ , within cluster์ ํ์คํธ์ฐจ๋ฅผ ์ต์ํํ ์ ์๋ Cluster๋ก ๊ฒฐ์ ๋๋ค.
k-Means ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฐจ๋ฅผ ๋ณด์. ์ฒ์์ Cluster์ ๊ฐ์๋ฅผ k๊ฐ๋ก ์ค์ ํ๊ณ ์์ํ๋ค. ๊ฐ๊ฐ์ Point๋ฅผ ํ๋์ Cluster๋ก ์ด๊ธฐํํ๋ค. ๊ฐ๊ฐ์ Data point์ ๋ํด์ cluster์ ์ค์ฌ๊ณผ ๊ฐ์ฅ ๊ฐ๊น์ด ์ฃผ๋ณ Data ๋ค์ ๊ฒฐ์ ํ๊ฒ ๋๋ค. ์ดํ ๋ค์ Cluster์ ์ค์ฌ์ ๊ณ์ฐํ๋ค. ํด๋น ๋ฐฉ์์ Centroid๊ฐ ์๋ ดํ ๋๊น์ง ๋ฐ๋ณต์ ์ผ๋ก ์ํํ๋ค.
Optimization Problem์ผ๋ก Sum of squared Error๊ฐ ์กด์ฌํ๋ค. ๊ฐ๊ฐ์ Data point๊ณผ Cluster์ Centroid ๊ฐ์ ์ฐจ์ด๋ฅผ ์ ๊ณฑํ์ฌ ๋ํ ๊ฒ์ ์ต์๊ฐ์ ๊ณ์ฐํ๊ฒ ๋๋ค. ์ด๋ฅผ SSE๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ต์๊ฐ์ ๊ฐ๋ S๊ฐ ์ ํด์ก์ ๋, centroid์ ํธ์ฐจ๋ฅผ 0์ผ๋ก ๋์ด ๋ค์ Centroid์ ์ง์ ์ ์ต์ ํ์ํจ๋ค.
k-Means ์๊ณ ๋ฆฌ์ฆ์๋ ์ด๋ค ๋ฌธ์ ์ ์ด ์์๊น? Distance Metric ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค. Metric์ด ์ ์๋์ง ์์์ ๋์ Cluster๊ฐ non-convexํ ๊ฒฝ์ฐ Distance๋ฅผ ๊ตฌํ๋ ๊ฒ์ด ์ ํฉํ์ง ์์ ์ ์๋ค๋ ์ ์ด๋ค.
Data Normalization ๊ฐ๋ ์ด ๋ฑ์ฅํ๋ค. Euclidean ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ์ ๋ ์ ๋์ ์ฐจ์ด๊ฐ ๋ ํฐ Data instance์ ๋ํด์ ๋ ํฐ ์ค์ฐจ์ ๊ฐ์ ๋ฃ๊ฒ ๋๋ฉด Clusterํ๋๋ฐ ์์ด์ ์๋์ ์ผ๋ก ๊ณ์ฐ์ด ์๋๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ๊ฐ๊ฐ์ Data ์์ฑ๋ค์ ๋น๊ต ๊ฐ๋ฅํ๋๋ก Mean-Std Normalization์ ์ํจ๋ค. Min-max scaling์ด๋ผ๊ณ ๋ถ๋ฆฌ๊ธฐ๋ ํ๋ค.
๊ทธ๋ ๋ค๋ฉด k์ ๊ฐ์ ์ด๋ป๊ฒ ์ค์ ํ๋๊ฐ? K์ ๋ฐ๋ผ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํด์ผ ์ด๋ K๊ฐ ๋ ์ ํฉํ์ง๋ฅผ ์ ์ ์๋ค. Elbow Method๋ฅผ ์ฌ์ฉํ๋๋ฐ ์ด๋ ๊ณ์ฐํ ์ ์๋ ๋ฒ์์ k๋ฅผ ๋ชจ๋ ๊ณ์ฐํ๋ ๊ฒ์ด๋ค. ๊ทธ ์ค์ within variance๊ฐ ๊ฐ์ฅ ์์ ๊ฐ์ด ๋์ค๊ฒ ํ๋ k๋ฅผ ์ฌ์ฉํ๋ ๋ฐฉ์์ด๋ค.
K์ ๊ฐ์ 1๋ถํฐ ์ฌ๋ ค์ SSE๊ฐ ์ค์ด๋๋ ์์์ ํ์ธํ๋ค. ์ด๋ ์ฃผ์ํ ๊ฒ์ Elbow Method๋ SSE์ ์ต์์ ์ ์ฐพ๋ ๊ฒ์ด ์๋๋ค. ์ ์ฒด๊ฐ ์์๋๋ ๊ตฌ๊ฐ์ ์ฐพ๋๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค.
k-Means ์๊ณ ๋ฆฌ์ฆ์ ISSUE๋ก outlier์ ๋ฏผ๊ฐํ๋ค๊ณ ํ๋ค. ์ด์ ๋์์ฑ ์ผ๋ก๋ Sotf assignment ๋ฐฉ์์ด ์๋ค. Mixture of Gaussian์ ๋ฐฉ์์ผ๋ก ํด๋ฌ์คํฐ๋ฅผ ๊ฐ์ง ํ๋ฅ ์ ๋ํ ์ ๊ทผ์ ํ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ k-means๊ฐ ์๋ k-medoids ๋ฐฉ์์ผ๋ก Cluster์ ํ๊ท ์ด ์๋ Median์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค.
๋ค์์ผ๋ก ์ด๋ป๊ฒ Clusterdml centroid๋ฅผ ์ด๊ธฐํํ ๊ฒ์ธ๊ฐ? Randomํ๊ฒ ํ๋ ๋ฐฉ์, Heuristicํ๊ฒ ํ๋ ๋ฐฉ์์ด ์กด์ฌํ๋ค. k-Mean++ ๋ฐฉ์๋ ์๋๋ฐ ์ด๋ Initial Point๋ก๋ถํฐ ํ๋ํ๋ ์ง์ ์ ์ก๋ ๊ฒ์ด๋ค.
๊ทธ๋ ๋ค๋ฉด ์ด๋ค Clutser๊ฐ ์ข์ Cluster์ธ๊ฐ? Intra-cluster์ Similarity๊ฐ ๋์ ๋, ์ฆ ๊ตฐ์ง ๋ด์ ์ ์ฌ๋๊ฐ ๋๊ณ ๊ตฐ์ง ๊ฐ์ ์ ์ฌ๋๊ฐ ๋ฎ์ ๋์ด๋ค. (Inter-cluster similarity is low)
Internal Criterion ์์๋ก Silhouette coefficient ๊ฐ ์๋ค. SSE๋์ Silhouette๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๋ ์์์ ์๊ณ ์์.
External Criterion์ ๊ฒฝ์ฐ Clustering์ ๊ฒฐ๊ณผ๋ฌผ์ ์ด๋ฏธ ๊ฒฐ์ ๋ ๋ต์๊ณผ ๋น๊ต๋ฅผ ํ์ฌ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๊ฒ์ด๋ค. ์ด๋ Labeled Data๊ฐ ํ์ํ๋ค.