๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš— Major Study (Bachelor)/๐ŸŸฅ Machine Learning

Linear Discriminant Analysis(LDA) Approach

by UKHYUN22 2022. 12. 5.
728x90

Classification์˜ ๊ฒฝ์šฐ๋ฅผ ์‚ดํŽด๋ณด์ž. Classifier๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ํ”ํ•œ ๋ฐฉ๋ฒ•์€ Discriminatn ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. Input Data์— ๋Œ€ํ•ด ํด๋ž˜์Šค๋ฅผ ๊ฐ€์žฅ ์ž˜ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•˜๊ณ  ์ตœ๋Œ€๊ฐ’์„ ๊ฐ€์ง€๋Š” Class๋ฅผ ์„ค์ •ํ•˜๋Š” ๋ฐฉ์‹์ด๋ผ๊ณ  ์ดํ•ดํ•˜๋ฉด ๋œ๋‹ค.

 

๊ทธ๋ ‡๋‹ค๋ฉด Discriminant ํ•จ์ˆ˜๋Š” ์–ด๋–ค ๊ฒƒ์ธ๊ฐ€. Decision Boundary ๋ž€ ํด๋ž˜์Šค๋ฅผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋Š” ์„ ์„ ํ•˜๋‚˜ ๊ธ‹๋Š” ๊ฒƒ์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋œ๋‹ค. ํด๋ž˜์Šค 0์— ๋Œ€ํ•ด์„œ ๊ฐ€์ง€๋Š” ํ™•๋ฅ ๊ฐ’์ด ๋†’์€ ๊ฒฝ์šฐ ํด๋ž˜์Šค 0๋กœ ํŒ๋ณ„, ํด๋ž˜์Šค 1์— ๋Œ€ํ•ด์„œ ๊ฐ€์ง€๋Š” ํ™•๋ฅ ๊ฐ’์ด ๋†’์€ ๊ฒฝ์šฐ ํด๋ž˜์Šค 1๋กœ ํŒ๋ณ„ํ•˜๊ฒŒ ๋œ๋‹ค.

 

Generative classifier ๋ž€ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ๋ชจ๋ธ์ด๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ๊ฐ€ ์ƒ์„ฑ๋  ํ™•๋ฅ ์ธ Joint Probability๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์ด ํ™•๋ฅ ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ”๋กœ Classifier๋กœ ํ™œ์šฉ์„ ํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์— ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๊ฐ€ Posterior ๋กœ ๋ณ€๊ฒฝํ•˜์—ฌ ๊ตฌํ•ด์•ผ ํ•œ๋‹ค. ์ด ๊ฒฝ์šฐ LDA๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š” ๋ถ„์„ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค.

Generative Classifier์™€ Discriminative Classifier ๋ชจ๋‘ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ์ ์ด ๊ณตํ†ต์ ์ด์ง€๋งŒ Generative์˜ ๊ฒฝ์šฐ ๋ฒ ์ด์ง€์•ˆ ์ด๋ก ์„ ํ™œ์šฉํ•œ๋‹ค๋Š” ์ ์ด ์ฐจ์ด์ ์ด๋‹ค. (์ ‘๊ทผ ๋ฐฉ์‹์— ์žˆ์–ด์„œ ์ฐจ๋ณ„์ ์ด ์žˆ์Œ์œผ๋กœ ์ดํ•ด๋ฅผ ํ•˜๋ฉด ๋  ๊ฒƒ ๊ฐ™๋‹ค)

 

 

LDA๋ž€ Between Class๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๊ฑฐ๋‚˜ Within Class ๋ถ„์‚ฐ์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. D-dim์„ ๊ฐ€์ง€๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ํ•˜๋‚˜์˜ ์„ ์œผ๋กœ Projectํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ์ƒ๊ฐํ•ด๋ณด๋ฉด ๋œ๋‹ค. 

 

๋ฌด์Šจ ๋œป์ธ๊ฐ€ ํ•˜๋ฉด ํ•ด๋‹น ๊ทธ๋ž˜ํ”„๋ฅผ ๋ณด๋ฉด ์ดํ•ดํ•˜๊ธฐ ์‰ฌ์šธ ๊ฒƒ์ด๋‹ค. ๋นจ๊ฐ„์ƒ‰๊ณผ ํŒŒ๋ž€์ƒ‰ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ์œ„ํ•œ ๊ฐ€์žฅ ์ ์ ˆํ•œ ์„ ์„ ์ฐพ๋Š” ๋ฐฉ๋ฒ•์€ ํ•˜๋‚˜์˜ ์„ ์œผ๋กœ Project๋ฅผ ํ–ˆ์„ ๋•Œ ์„ž์ด๋Š” ๊ตฌ๊ฐ„์ด ์•ˆ์ƒ๊ธฐ๋Š” ์„ ์„ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. ์˜ค๋ฅธ์ชฝ ์•„๋ž˜์˜ ์„ ์˜ ๊ฒฝ์šฐ ๊ฐ€์žฅ ์ž˜ ๊ตฌ๋ถ„ํ–ˆ๋‹ค๊ณ  ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

 

Fisher๊ฐ€ ํ•ด๋‹น ๋ฐฉ๋ฒ•์„ ๋‘ ๊ฐ€์ง€์˜ ๋…ผ๋ฆฌ๋กœ ์ œ์•ˆํ•œ๋‹ค. ํด๋ž˜์Šค๋“ค ๊ฐ„์˜ ํ‰๊ท  ๊ฑฐ๋ฆฌ๋ฅผ ์ตœ๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๋ถ„์‚ฐ๊ณผ ํด๋ž˜์Šค ๋‚ด์˜ ๋ถ„์‚ฐ์„ ์ตœ์†Œํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ์„ ์„ ์ฐพ์œผ๋ฉด ๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. 

 

 

๊ณ„์†ํ•ด์„œ LDA์˜ ๋ฐฉ์‹์„ ์‚ดํŽด๋ณด๊ณ  ์žˆ๋‹ค. Sw๋Š” ๊ฐ ํด๋ž˜์Šค ๋‚ด์˜ ๋ถ„์‚ฐ์ด๊ณ  Sb๋Š” ํด๋ž˜์Šค ๊ฐ„์˜ ๋ถ„์‚ฐ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค๊ณ  ํ•˜๋ฉด ๋œ๋‹ค.

 

์ด๋ฅผ ํžˆ์Šคํ† ๊ทธ๋žจ์œผ๋กœ ์‚ดํŽด๋ณด๋ฉด ์„ ์„ ์–ด๋–ป๊ฒŒ ๊ธ‹๋Š”๊ฐ€ ์— ๋”ฐ๋ผ์„œ Project๋˜๋Š” ๋ถ„ํฌ๊ฐ€ ์™„์ „ํžˆ ๋‹ค๋ฆ„์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ทธ๋ฆผ์ƒ์œผ๋กœ ๋ณด๊ธฐ๋งŒ ํ•ด๋„ ์˜ค๋ฅธ์ชฝ์ด Class๋ฅผ ๋” ์ž˜ ๋ถ„๋ณ„ํ•˜๊ณ  ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

 

๊ทธ๋ ‡๋‹ค๋ฉด W๋ฅผ ์–ด๋–ป๊ฒŒ ์ฐพ๋Š”๋‹ค๋Š” ๊ฒƒ์ธ๊ฐ€? Between class variance์™€ Within class variance ๊ฐ„์˜ ์ ์ ˆํ•œ ๋น„์œจ์„ ์ตœ๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์‚ดํŽด๋ณด๋ฉด ๋  ๊ฒƒ์ด๋‹ค. Between Class๋Š” ํด์ˆ˜๋ก With Class๋Š” ์ž‘์„ ์ˆ˜๋ก ์ข‹๊ธฐ ๋•Œ๋ฌธ์— ๋น„์œจ์„ ์ตœ๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒฝ์šฐ๋ฅผ ์ฐพ์œผ๋ฉด ๋‘ ๊ฐ€์ง€์˜ ๊ฒฝ์šฐ๋ฅผ ๋งŒ์กฑํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

 

๊ทธ๋ ‡๋‹ค๋ฉด LDA์˜ Objective function์€ ๋‹จ์ˆœํžˆ Error์— ๊ด€ํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ Variance์— ๋Œ€ํ•œ ๋น„์œจ์„ ์ตœ๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ์‹์œผ๋กœ ์ง„ํ–‰์ด ๋œ๋‹ค. M0๋ฅผ Class 0 ์˜ ํ‰๊ท  M1์„ Class 1์˜ ํ‰๊ท ์ด๋ผ๊ณ  ํ–ˆ์„ ๋•Œ ์œ„์˜ ์‹์ฒ˜๋Ÿผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฐ ํด๋ž˜์Šค์˜ ํ‰๊ท ์€ ๊ทธ๋ ‡๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ ๊ตฌํ•˜๋Š”์ง€ ์‚ดํŽด๋ณด์ž. Weight์™€ ๊ฐ Input ๋ฐ์ดํ„ฐ์ธ X๋ฅผ Projection ํ•œ ๊ฒƒ์˜ ํ‰๊ท ์ด๋‹ค. Variance์˜ ๊ฒฝ์šฐ Projectํ•œ ๊ณต๊ฐ„์—์„œ ์ด๋ฏธ ๊ตฌํ•œ ํ‰๊ท ๊ณผ์˜ ์ฐจ์ด์˜ ์ œ๊ณฑ์„ ๋‹ค ๋”ํ•œ ๊ฒƒ์ด๋ผ๊ณ  ๋ณด๋ฉด ๋œ๋‹ค. W^T์— ๋Œ€ํ•ด์„œ ์‹ ๋ฐ–์œผ๋กœ ๊บผ๋‚ด๋ฉด Original Space๋ฅผ Squareํ•œ ๊ฒƒ์˜ ๊ณฑ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

์ด ๊ฒฝ์šฐ Projection ํ•˜๊ธฐ ์ „์ธ Original Space์—์„œ์˜ ์ƒํ™ฉ์„ ํ‘œํ˜„ํ•œ ๊ฒƒ์ด๋‹ค. S0์™€ S1์€ ๊ฐ๊ฐ ํด๋ž˜์Šค์˜ ๋ถ„์‚ฐ์„ ํ‘œํ˜„ํ•œ ๊ฒƒ์ด๋‹ค. ๋ถ„์‚ฐ์€ ๊ฐ๊ฐ์˜ Input๊ณผ ํ‰๊ท ์˜ ์ฐจ์ด์˜ ์ œ๊ณฑ์ด๋ฏ€๋กœ ์œ„์ฒ˜๋Ÿผ Transpose๋ฅผ ํ†ตํ•ด์„œ ๊ณฑํ•œ ๊ผด๋กœ ํ‘œํ˜„์ด ๋œ๋‹ค. S0์™€ S1์„ ๋”ํ•œ ๊ฒƒ์ด Sw๋กœ Within-class ๋ถ„์‚ฐ์ด ๋œ๋‹ค. ํด๋ž˜์Šค ๋‚ด์˜ ๋ถ„์‚ฐ์˜ ํ•ฉ์€ ์ตœ์†Œ๊ฐ€ ๋˜์–ด์•ผ ํ•œ๋‹ค. ๋ฐ˜๋Œ€๋กœ ํด๋ž˜์Šค ๊ฐ„์˜ ํ‰๊ท ์˜ ์ฐจ์ด์˜ ์ œ๊ณฑ์€ Between Class ๋ถ„์‚ฐ์œผ๋กœ ์ด ๊ฐ’์ด ์ปค์•ผ ํด๋ž˜์Šค ๊ฐ„์˜ ๋ถ„๋ฅ˜๋ฅผ ์ž˜ํ•œ ๊ฒฝ์šฐ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, ์—ฌ๊ธฐ์„œ ํ‘œํ˜„ํ•˜๋Š” Sw์™€ Sb๋Š” Projection ๊ณต๊ฐ„์ด ์•„๋‹Œ Original ๊ณต๊ฐ„์—์„œ์˜ ๋ถ„์‚ฐ์— ํ•ด๋‹นํ•จ์„ ์•Œ๋ฉด ๋œ๋‹ค.

 

Objective ํ•จ์ˆ˜๋ฅผ ๋‹ค์‹œ ๋ถ„ํ•ดํ•˜๋ฉด Weight์— ๋Œ€ํ•ด์„œ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋•Œ ์ œ์•ฝ์กฐ๊ฑด์„ ์ถ”๊ฐ€ํ•˜๊ณ ์ž ํ•œ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ๋ผ๊ทธ๋ž‘์ฃผ ๋ฐฉ๋ฒ•์œผ๋กœ ์ตœ์ ํ™” ์ง€์ ์„ ์ฐพ์„ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

์ด ๋ถ€๋ถ„์€ Projection space ์—์„œ์˜ ์ƒํ™ฉ์„ ๊ฐ•์กฐํ•œ ๊ฒƒ์ด๋‹ค. ๊ฐ๊ฐ ํด๋ž˜์Šค์˜ ํ‰๊ท ์„ Projectionํ•˜๋ฉด ํ•˜๋‚˜์˜ Space์— ์กด์žฌํ•˜๋ฏ€๋กœ ์ฐจ์ด์˜ ์ œ๊ณฑ๊ผด ํ˜•ํƒœ๋กœ ๋ฐ”๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. Within Class ๋ถ„์‚ฐ๋„ ๋™์ผํ•˜๊ฒŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๊ฒฝ์šฐ๋Š” General ํ•˜๊ฒŒ ํ‘œํ˜„ํ–ˆ์œผ๋ฏ€๋กœ ํ•˜๋‚˜์˜ Uniqueํ•œ ๊ฐ’์„ ๊ฐ€์งˆ ์ˆ˜ ์—†๋‹ค. ๊ทธ๋ž˜์„œ Within Class ๋ถ„์‚ฐ์„ 1๋กœ Constraint๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ํ•˜๋‚˜์˜ Uniqueํ•œ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๊ทธ๋ž˜์„œ Objective ํ•จ์ˆ˜๋Š” ๋ถ„๋ชจ๊ฐ€ 1์ด ๋˜์–ด With in class ๋งŒ ์ตœ์ ํ™”ํ•˜๋ฉด ๋˜๋Š” ๋ฌธ์ œ๋กœ ๊ท€๊ฒฐ๋œ๋‹ค.

 

๋ถ„์‚ฐ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์ด Objective ํ•จ์ˆ˜์˜ ๋ชฉ์ ์ธ๋ฐ (-) ๋ถ€ํ˜ธ๋ฅผ ๋ถ™์ด๊ฒŒ ๋˜๋ฉด ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฌธ์ œ๋กœ ๋ณ€๊ฒฝ์ด ๋œ๋‹ค. Weight์— ๋Œ€ํ•ด์„œ ๋ถ€๋ถ„ ๋ฏธ๋ถ„์„ ์ˆ˜ํ–‰ํ•˜๊ฒŒ ๋˜๋ฉด ์•„๋ž˜ ์ชฝ์— ๋ณด์ด๋Š” ์ตœ์ข…์ ์ธ ์ˆ˜์‹์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

 

์ด๋ฅผ ๋‹ค์‹œ ์‚ดํŽด๋ณด๋ฉด ๊ฒฐ๊ตญ Eigenvalue Decomposition์„ ํ•˜๋Š” ๋‚ด์šฉ์ด ๋œ๋‹ค. ์ด ๊ฒฝ์šฐ์— Sw๊ฐ€ Inverse ๊ฐ€๋Šฅํ•ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์ด ์ „์ œ์ด๋ฉฐ Sw^-1 * Sb์˜ Eigenvalue๋ฅผ ์ฐพ๋Š” ๋ฌธ์ œ๊ฐ€ ๋œ๋‹ค. 

 

์ด์ œ Prediction์„ ํ•˜๋ฉด ๋œ๋‹ค. LDA๋ฅผ ์š”์•ฝํ•ด์„œ ๋งํ•˜๋ฉด ์ƒˆ๋กœ์šด ์ถ•์œผ๋กœ Projection ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ๊ทธ๋ž˜์„œ LDA๋ฅผ ํ•œ ๊ฐ’์ด ํŠน์ • ๊ฐ’(Threshold) ๋ณด๋‹ค ํฌ๊ฑฐ๋‚˜ , ์ž‘์„ ๋•Œ๋กœ Class๋ฅผ ๋ถ„๋ฅ˜ํ•˜๊ฒŒ ๋˜๋ฉด ์˜ˆ์ธก์„ ํ•  ์ˆ˜ ์žˆ๋‹ค.