๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš— Major Study (Bachelor)/๐ŸŸฅ Machine Learning

What is Density Estimation? The Basic approach to Machine Learning

by UKHYUN22 2022. 11. 1.
728x90

 

Density Estimation is unsupervised learning task.

unsupervised๋ž€ ๋ฐ์ดํ„ฐ์— ํ•ด๋‹นํ•˜๋Š” ๋ผ๋ฒจ์ด ์กด์žฌํ•˜์ง€ ์•Š์€ ์ƒํƒœ๋กœ ํ•™์Šต์ด ์ง„ํ–‰๋˜๋Š” ๊ฒƒ์œผ๋กœ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์ด ์ฃผ Task์ด๋‹ค. ๊ทธ๋ž˜์„œ Density Estimation์˜ ๋ชฉํ‘œ๋Š” Underlying Probablility distribution model๋กœ ํ•ด๋‹น ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ ํ˜•ํƒœ๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ Likelihood๋ผ๋Š” ๊ฐœ๋…์ด ๋“ฑ์žฅํ•˜๋Š”๋ฐ, ๋ง์—์„œ ์•Œ ์ˆ˜ ์žˆ๋“ฏ์ด ๋ฐ์ดํ„ฐ์˜ ๋ฐœ์ƒํ™•๋ฅ ์„ ์ถ”์ •ํ•˜๋Š” ๊ณผ์ •์ด ์‚ฌ์šฉ๋œ๋‹ค.

 

Density Estimation์„ ํ•  ๋•Œ ํ•˜๋‚˜์˜ ์ค‘์š”ํ•œ ๊ฐ€์ •์ด ์กด์žฌํ•˜๋Š”๋ฐ ์ด๋Š” IID๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š” Independently Identically Distributed์˜ ์„ฑ์งˆ์ด๋‹ค. ์ด๋Š” ๋ฌด์Šจ ๋ง์ด๋ƒ. ๊ฐ๊ฐ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋…๋ฆฝ์ด๋ฉฐ ๋™์ผํ•œ ํ™•๋ฅ  ๋ถ„ํฌ์—์„œ ๋‚˜์˜จ ๋ฐ์ดํ„ฐ๋ผ๋Š” ๋œป์ด๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ๋…๋ฆฝ์˜ ์„ฑ์งˆ์€ ๋ฌด์—‡์ธ๊ฐ€? ๊ฐ๊ฐ์˜ ๊ณฑ์…ˆ์ด ์ตœ์ข… ํ™•๋ฅ ๊ณผ ๋™์ผํ•œ ๊ฒƒ. ์ฆ‰ ๊ฐ๊ฐ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์„œ๋กœ์—๊ฒŒ ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š๋Š” ํ™˜๊ฒฝ์˜ ๋ฐ์ดํ„ฐ๋ผ๊ณ  ์ดํ•ดํ•˜๋ฉด ๋œ๋‹ค. 

 

 

Density Estimation์€ ๊ทธ๋ ‡๋‹ค๋ฉด ๋ฐ์ดํ„ฐ์—์„œ ์–ด๋–ค ์ข…๋ฅ˜์˜ ๋ถ„ํฌ๋ฅผ ๋ฝ‘์•„๋‚ผ ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜๋Š”๊ฐ€? ๋‘ ๊ฐ€์ง€์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ๋Š” parametric Type์ด๋‹ค. ํŒŒ๋ผ๋ฏธํ„ฐ๋ผ๋Š” ๊ฒƒ์€ ๋ฌด์—‡์ธ๊ฐ€. ์ด๋Š” ํ•ด๋‹น ๋ฐ์ดํ„ฐ๊ฐ€ ํŠน์ • ๋ถ„ํฌ์—์„œ ๋„์ถœ๋˜์—ˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ์ถ”์ธกํ•˜๋Š”๋ฐ ์–ด๋–ค ๋ถ„ํฌ์—์„œ ์ถ”์ถœ๋˜์—ˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋Š” ๊ฒƒ์ด ์˜์•„ํ•  ์ˆ˜๋„ ์žˆ๋‹ค. ์ •๋ฆฌ๋ฅผ ํ•˜์ž๋ฉด ์ด ๋ฐฉ์‹์€ ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋ฅผ ๋ฌ˜์‚ฌํ•  ์ˆ˜ ์žˆ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ (์Ž„ํƒ€)๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋ณด๋ฉด ๋œ๋‹ค. ๋‘ ๋ฒˆ์งธ๋Š” non parametric Type์ด๋‹ค. ๋ฐ˜๋Œ€๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋–ค ๋ถ„ํฌ๋กœ๋ถ€ํ„ฐ ๋‚˜์™”๋‹ค๋Š” ๊ฐ€์ •์„ ํ•˜์ง€ ์•Š์€ ์ฑ„๋กœ ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ ๋ณดํ†ต Estimate the density directly from the data๋ผ๋Š” ํ‘œํ˜„์„ ์‚ฌ์šฉํ•œ๋‹ค.

 

Parametric Method๋ถ€ํ„ฐ ์‚ดํŽด๋ณด์ž. Parameter estimation์„ ์ง„ํ–‰ํ•  ๋•Œ ํฐ ๊ฐ€์ •์€ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€์‘ํ•˜๋Š” true value๊ฐ€ ์กด์žฌํ•œ๋‹ค๊ณ  ์„ค์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ฃผ์–ด์ง„ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋”ฐ๋ผ ๋ณ€์ˆ˜ X์˜ likelihood ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•˜๊ฒŒ ๋˜๋Š”๋ฐ ์ด๋•Œ์˜ ๋ชฉ์ ํ•จ์ˆ˜์ธ Objective function์€ ํ•ด๋‹น likelihood ํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” Maximum Likelihood ํ•จ์ˆ˜๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋Š” ํ™•๋ฅ ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ (์„ธํƒ€)๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์ด๋ผ๊ณ  ์ดํ•ดํ•˜๋ฉด ๋œ๋‹ค. ์ด๋•Œ ๊ณ„์‚ฐ์˜ ํŽธ์˜์„ฑ์„ ์œ„ํ•ด ํ•ด๋‹น Likelihood ํ•จ์ˆ˜์— log๋ฅผ ๋ถ™์—ฌ Log-Likelihood ํ•จ์ˆ˜๋ฅผ ์„ค์ •ํ•œ๋‹ค.

 

 

MLE๋Š” ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฐฉ๋ฒ• ์ค‘์˜ ํ•˜๋‚˜๋ผ๊ณ  ์ดํ•ดํ•˜๋ฉด ๋œ๋‹ค. likelihood ํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ณผ์ •์„ ์ง„ํ–‰ํ•˜๊ฒŒ ๋œ๋‹ค. ๊ทธ๋ž˜์„œ MLE์˜ ๋ชฉ์ ์€ likelihood ํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ (์„ธํƒ€)๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋ผ๊ณ  ๋ณด๋ฉด ๋œ๋‹ค. IID ๊ฐ€์ •์— ๊ธฐ๋ฐ˜ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํŠน์ • ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์กฐ๊ฑด์œผ๋กœ ํ•˜๋Š” ํ™•๋ฅ ์€ Independentํ•˜๋ฉฐ ์œ„์˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์€ Annotation์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์—ฌ๊ธฐ์„œ ๊ณ„์‚ฐ์˜ ํŽธ์˜๋ฅผ ์œ„ํ•ด Log๋ฅผ ์”Œ์šฐ๊ฒŒ ๋˜๋ฉด ๊ณฑ์…ˆ์ด ๋ง์…ˆ์œผ๋กœ ๋ณ€ํ•œ๋‹ค.

 

MLE์— ๋Œ€ํ•ด์„œ ๊ณ„์† ์•Œ์•„๋ณด๊ณ  ์žˆ๋‹ค. Log likelihood๋ผ๊ณ  ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ณ  ์œ„์—์„œ ๋งํ•œ ๊ฒƒ์ฒ˜๋Ÿผ log ๋•๋ถ„์— ๋ง์…ˆ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. Argmax๋Š” ๋งŽ์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ค‘ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ๋Š”๋‹ค๋Š” ๋œป์ด ๋œ๋‹ค. Log ํ•จ์ˆ˜๋Š” ๋‹จ์กฐ์ฆ๊ฐ€ ํ•จ์ˆ˜ ์ด๊ธฐ ๋•Œ๋ฌธ์— Increase์™€ Decrease ๊ตฌ๊ฐ„์˜ ๋ณ€ํ™”๋Š” ์—†๋‹ค.

 

Bayesian Parameter Estimation์ด๋ž€ ๋ง ๊ทธ๋Œ€๋กœ ๋ฒ ์ด์ง€์•ˆ ํ™•๋ฅ ์„ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. MLE๋Š” parameter set ์ค‘์—์„œ ์˜ค์ง ํ•˜๋‚˜๋งŒ์„ ์„ ์ •ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. ํ•˜์ง€๋งŒ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋Š”๋ฐ, ์ด๋Š” ๋‘ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ MLE์—์„œ ์„ ํƒ๋˜๋Š” ๊ฒฝ์šฐ์ด๋‹ค. ๊ทธ๋Ÿผ ์–ด๋–ป๊ฒŒ ํ•ด๊ฒฐ์„ ํ•ด์•ผํ•˜๋Š”๊ฐ€? ์ด๋•Œ Baysian parameter Estimation์„ ์ ์šฉํ•œ๋‹ค. ํŒŒ๋ผ๋ฏธํ„ฐ (์„ธํƒ€)์— ํ•ด๋‹นํ•˜๋Š” ์‚ฌํ›„ ํ™•๋ฅ ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๊ฒŒ ๋ฌด์Šจ ๋ง์ผ๊นŒ. ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์–ด๋–ค ๋ถ„ํฌ์—์„œ ๋‚˜์™”๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋Š” ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ํ•ด๋‹น ๋ถ„ํฌ์˜ ์‚ฌ์ „ ํ™•๋ฅ ์„ ์ด์šฉํ•˜์—ฌ ๊ณ„์‚ฐํ•˜๊ฒ ๋‹ค๋Š” ๋œป์ด๋‹ค. 

 

 

Baysian Parameter Esitmation์˜ ์‚ฌ์ „ ํ™•๋ฅ ์ด ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐ€๋Šฅํ•œ ๊ฐ’๋“ค์„ ๋ชจ๋‘ ์ปค๋ฒ„ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ํ‘œํ˜„์ด ์žˆ๋‹ค. (์•„์ง ์ž˜ ์ดํ•ด๋ฅผ ๋ชปํ•˜๊ฒ ๋‹ค..)