๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš“ Self Study/๐Ÿ”ด Machine Learning

[๋ฐฉํ•™ ์ค‘ ๊ณต๋ถ€] Machine Learning. Density Estimation #1 - density estimation, parameter estimation, MLE

by UKHYUN22 2022. 8. 10.
728x90

 

๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ์„ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด์„œ Vector๊ฐ€ ํ•„์š”ํ•˜๊ณ , ํ•ด๋‹น Dataset์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” Sample์˜ ๋ถ„ํด๋ฅผ ์•Œ๊ณ  ์žˆ์–ด์•ผ ํ•œ๋‹ค. 

Density function ์œผ๋กœ๋ถ€ํ„ฐ ํ™•๋ฅ ์„ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ๋“ค๋กœ ๋ถ€ํ„ฐ ๊ธฐ์•ˆํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ๋“ค์€ Density Function์œผ๋กœ๋ถ€ํ„ฐ ์ถ”์ถœ๋œ ๋žœ๋ค ์ƒ˜ํ”Œ์ด๋ผ๊ณ  ๊ฐ€์ •ํ•œ๋‹ค. 

 

์ •๋‹ต Label์ด ์—†๋Š” ๊ฒฝ์šฐ Unsupervised๋ผ๊ณ  ํ‘œํ˜„์„ ํ•˜๋ฉฐ ๊ทธ ๋ถ„ํฌ๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๋‹ค์‹œ ๋งํ•ด Population์˜ Density๋ฅผ ์•Œ๋ฉด ํ•ด๋‹น ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. 

 

๊ทธ๋ฆฌ๊ณ  ์ด๋Ÿฐ Density๋Š” Classification์œผ๋กœ ๋ฒ”์ฃผํ™”ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์‚ฌ์šฉ์ด ๋œ๋‹ค. Classification์˜ ๊ฒฝ์šฐ ์ •๋‹ต Label์ด ์กด์žฌํ•˜๋ฉฐ Baysian Thoerem์— ์ฐฉ์•ˆํ•˜์—ฌ Class conditional Density ํ™•๋ฅ ์„ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ๊ฒฝ์šฐ parameter Conditional Density์˜ ํ™•๋ฅ ์„ ๋ฐ˜๋Œ€๋กœ ๊ตฌํ•˜์—ฌ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. 

Parameter Method

 

ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ํ•™์Šต์„ ํ†ตํ•ด์„œ ๋ฐœ์ „์‹œ์ผœ ๋‚˜๊ฐ€๋Š” ์‹์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์˜๋ฏธํ•œ๋‹ค. ํ•˜์ง€๋งŒ ์—ฌ๊ธฐ์„œ ๊ฒฐ์ •ํ•ด์•ผ ํ•  ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ˆ˜๋Š” ๋ณ€ํ•˜์ง€ ์•Š๋Š”๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ, Linear Regression, Logistic Regression, Baesian Inference ๋“ฑ์ด ์žˆ๋‹ค. 

 

Nonparameter Method

 

๋ถ„ํฌ์— ๋Œ€ํ•œ ์ถ”์ •์„ ํ•˜์ง€ ์•Š๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ Density๋ฅผ ๋ฐ”๋กœ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Histogram, Decision Tree, Random Forest, K-nearest Neighbor Classification์ด  ์žˆ๋‹ค. nonparameter Method๋ผ๊ณ  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์•„์˜ˆ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ˆซ์ž๊ฐ€ ๊ณ ์ •๋˜์–ด ์žˆ์ง€ ์•Š๊ณ  ๊ทธ ์„ฑ์งˆ ๋˜ํ•œ ๋ณ€ํ•  ์ˆ˜๋„ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. 

 

 

Estimation Theory

 

์ถ”์ •์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์€ ์–ด๋– ํ•œ ๋ฐ์ดํ„ฐ๋กœ ๋ถ€ํ„ฐ ์ •ํ™•ํ•œ Label์— ๋Œ€ํ•œ ๋ถ„ํฌ์™€ ์„ฑ์งˆ์„ ์–ป์–ด๋‚ด์ง€ ๋ชปํ•˜์ง€๋งŒ ๊ทผ์‚ฌ๋ฅผ ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฐˆํ•œ๋‹ค๊ณ  ๋ณด๋ฉด ๋œ๋‹ค. ๋ณดํ†ต ์ถ”์ •์„ ์–ด๋–ป๊ฒŒ ํ•˜๋Š”์ง€ ์ƒ๊ฐ์„ ํ•ด๋ณด๋ฉด ์ธก์ •๋˜๋Š” ๋ฐ์ดํ„ฐ์—์„œ์˜ ์˜ค์ฐจ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ๊ทธ ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™” ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๊ทผ์‚ฌํ•˜๊ฒŒ ๋˜๋Š” ๊ฒƒ์„ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

 

Bias

 

ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์—์„œ ์ถ”์ •์น˜์˜ ์˜ค์ฐจ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. Bias๊ฐ€ ๋†’๋‹ค๋Š” ๊ฒƒ์€  Underfitting์„ ์˜๋ฏธํ•˜๊ณ  ์ด๋Š” ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ๊ฐ„๋‹จํ•ด์„œ ํ•™์Šต ์˜ค๋ฅ˜๊ฐ€ ์ค„์–ด๋“ค์ง€ ์•Š๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ๋ณดํ†ต ํ•™์Šต์˜ ๋ฐ˜๋ณต ํšŸ์ˆ˜๊ฐ€ ์ ๊ฑฐ๋‚˜ ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ๊ฐ„๋‹จํ•˜๊ฑฐ๋‚˜ ๋ฐ์ดํ„ฐ์˜ ์–‘์ด ๋„ˆ๋ฌด ์ ์€ ๊ฒฝ์šฐ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒฝ์šฐ๊ฐ€ ์ผ์–ด๋‚˜๊ฒŒ ๋œ๋‹ค.

 

Variance

 

๋ถ„์‚ฐ์— ํ•ด๋‹นํ•˜๊ณ , ๋ฐ์ดํ„ฐ ์•ˆ์˜ ์ž‘์€ Fluctuation์— ์–ผ๋งˆ๋‚˜ ๋ฏผ๊ฐํ•œ์ง€๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ๋Š” Error๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. Variance๊ฐ€ ๋†’์€ ๊ฒฝ์šฐ Overfitting์„ ์ถ”์ธกํ•  ์ˆ˜ ์žˆ๋‹ค. Overfitting์ด๋ž€  ์‹ค์ œ ๋ถ„ํฌ๋ณด๋‹ค ํ•™์Šต ์ƒ˜ํ”Œ ๋ถ„ํฌ์— ๋” ๊ทผ์ ‘ํ•˜๊ฒŒ ๋˜๋Š” ํ˜„์ƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ ํ•™์Šต ๋ฐ์ดํ„ฐ ์ด์™ธ์˜ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ๋Š” ์„ฑ๋Šฅ์„ ์ž˜ ๋‚ด์ง€ ๋ชปํ•˜๋Š” ๊ฒƒ์ด ํŠน์ง•์ด๋‹ค. ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ์ ๊ฑฐ๋‚˜, ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์— ๋น„ํ•ด ๋ชจ๋ธ์ด ๋„ˆ๋ฌด  ๋ณต์žกํ•œ ๊ฒฝ์šฐ์— ๋ฐœ์ƒํ•œ๋‹ค. 

 

Bias๋Š” ๋ฐ์ดํ„ฐ์— ์žˆ๋Š” ๋ชจ๋“  ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜์ง€ ์•Š์Œ์œผ๋กœ์จ ์ง€์†์ ์œผ๋กœ ์ž˜๋ชป๋œ ๊ฒƒ์„ ํ•™์Šตํ•˜๋Š” ๊ฒฝํ–ฅ์„ฑ์„ ์˜๋ฏธํ•œ๋‹ค. ๋ฐ˜๋Œ€๋กœ Variance๋Š” ๋ฐ์ดํ„ฐ ๋‚ด์— ์žˆ๋Š” ์ž‘์€ Noise๋‚˜ Error์— ๋ฐ์ดํ„ฐ๋ฅผ Fitting ์‹œํ‚ค๋ฏ€๋กœ์จ ์‹ค์ œ ํ˜„์ƒ๊ณผ ๊ด€๋ จ ์—†๋Š” ๊ฒƒ ๊นŒ์ง€ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์ด ๋‘๊ฐ€์ง€ ํŠน์ง•์—๋Š” Trade Off๊ฐ€ ๋ฐœ์ƒํ•˜๊ธฐ ๋งˆ๋ จ์ด๋‹ค. 

 

์ˆ˜์‹์œผ๋กœ ์ •๋ฆฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ฐœ์ƒํ•˜๋Š” Error์˜ ํ‰๊ท ์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ œ๊ณฑ์„  ํ•ด์ค˜์•ผ ์Œ์˜ ๋ถ€ํ˜ธ๊ฐ€ ์‚ฌ๋ผ์ง€๊ณ  ๊ทธ๊ฒƒ์˜ Expectation์„ ๊ตฌํ•˜๊ฒŒ ๋˜๋Š” ๊ฒฝ์šฐ bias์™€ variance์— ํ•ด๋‹นํ•˜๋Š” ๊ฐ’์˜ ๋ง์…ˆ์œผ๋กœ ํ‘œํ˜„์ด ๋œ๋‹ค. ์ฆ‰, ์–ด๋–ค Error๋ฅผ  ์‚ดํŽด๋ณด๋ฉด Bias๊ฐ€ ์ž‘์€ ๊ฒฝ์šฐ Variance๊ฐ€ ํด ์ˆ˜ ๋ฐ–์— ์—†๊ณ , Bias๊ฐ€ ํฐ ๊ฒฝ์šฐ Variance๊ฐ€ ์ž‘์„ ์ˆ˜ ๋ฐ–์— ์—†๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. 

 

Bias and Variance Trade Off

 

 

Maximum Likelihood Estimation

 

ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. likelihood function์„ ์ตœ๋Œ€ํ™”ํ•˜๋ฏ€๋กœ์จ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค. (๋’ค์ด์–ด ๊ณ„์†) ๊ทธ๋ฆฌ๊ณ  ๊ด€์ธก๋˜๋Š” ๋ฐ์ดํ„ฐ๋“ค์€ ๊ฐ€์žฅ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์ด ๋†’์€ ๊ฒƒ๋“ค์ด๋‹ค. MLE๋Š” ํ†ต๊ณ„ํ•™์—์„œ ๊ต‰์žฅํžˆ ์ง๊ด€์ ์ด๊ณ  ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ์‹์ด๋‹ค. 

 

 

Likelihood ๋ผ๋Š” ๊ฒƒ์€ ์–ป์€ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•ด๋‹น ๋ถ„ํฌ๋กœ ๋‚˜์™”์„ ๊ฐ€๋Šฅ์„ฑ์„ ์˜๋ฏธํ•œ๋‹ค. Likelihood Function์€ ๋ณดํ†ต ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„์„ ํ•œ๋‹ค. ์ธก์ •๋œ ๋ฐ์ดํ„ฐ๋ฅผ X๋ผ๊ณ  ํ•˜๊ณ  ์ถ”์ •๋˜๋Š” ๋ถ„ํฌ๋ฅผ '์„ธํƒ€' ๋ผ๊ณ  ํ–ˆ์„ ๋•Œ p(x|Theta)๋กœ ํ‘œํ˜„ํ•œ๋‹ค. ๋งŒ์ผ ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ๋“ค์ด Independentํ•œ ๊ฒฝ์šฐ ๊ฐ Likehood probability์˜ ๊ณฑ์…ˆ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ณ  ๋งˆ์ง€๋ง‰์œผ๋กœ ์ถ”์ • ๋ถ„ํฌ๊ฐ€ ๊ฐ€์šฐ์‹œ์•ˆ์˜ ๊ฒฝ์šฐ, ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ์ด์šฉํ•˜์—ฌ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

Log Likelihood

 

log funtion์„ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๋Š” ๊ณ„์‚ฐ์˜ ํŽธ์˜์„ฑ์„ ์œ„ํ•จ์ด ํฌ๋‹ค. 

 

 

๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์˜ MLE

 

๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์˜ log  likelihoodํ•จ์ˆ˜๋ฅผ ๊ตฌํ•˜๋ฉด N๊ฐœ์˜ ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์˜ ๋กœ๊ทธ ํ•ฉ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ณ  ์ด๋Š” ํŒŒ๋ž€์ƒ‰ ๋„ค๋ชจ ๋ฐ•์Šค์ฒ˜๋Ÿผ ์œ ๋„ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ   ์ด๊ฒƒ์„ Maximizeํ•˜๊ธฐ ์œ„ํ•ด์„œ ํŽธ๋ฏธ๋ถ„์„ ํ•˜๋ฉด Derivation์ด 0์ผ ๋•Œ ์ตœ๋Œ€๊ฐ€ ๋˜๋Š” ๊ฒƒ์ž„์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.