๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐ŸŒด Course Review (Master)/๐Ÿš€ ๊ธฐ๊ณ„ ํ•™์Šต

๊ธฐ๊ณ„ํ•™์Šต์—์„œ Estimation์„ ํ•˜๋Š” ๊ทผ๋ณธ์  ์ด์œ . Parametric Estimation์ด๋ž€?

by UKHYUN22 2024. 3. 7.
728x90

Motivation for MLE

๋งŒ์ผ ๋™์ „์„ ๋˜์กŒ์„ ๋•Œ ๋™์ „์˜ ์•ž๋ฉด์ด ๋‚˜์˜ฌ ํ™•๋ฅ ์„ x ๋ผ๊ณ  ํ•˜์ž. 10๋ฒˆ ๋˜์กŒ์„ ๊ฒฝ์šฐ ์•ž๋ฉด์ด 7๋ฒˆ ๋‚˜์˜ค๊ณ  ๋’ท๋ฉด์ด 3๋ฒˆ ๋‚˜์˜จ ๊ฒฝ์šฐ x๋Š” 0.7 ์ด๋ผ๊ณ  ๋‹ตํ•  ๊ฒƒ์ด๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์ด ํ™•๋ฅ ์„ ์–ด๋–ป๊ฒŒ ์ถ”๋ก ํ•œ ๊ฒƒ์ธ๊ฐ€? ์ด ์ถ”๋ก  ๊ณผ์ •์€ ๊ด€์ธก(Observation) ์œผ๋กœ๋ถ€ํ„ฐ ํŒŒ๋ผ๋ฏธ๋” (Parameter)๋ฅผ ๋„์ถœํ•˜๋Š” ๊ณผ์ •์œผ๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํŒจํ„ด(Pattern)์„ ์ฐพ์•„๋‚ด๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋Š” The Most likely probability model์„ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค.

๋Œ€ํ‘œ์ ์œผ๋กœ ๋‘ ๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ํŒจํ„ด์„ ์ฐพ์•„๋‚ด๋Š”๋ฐ ํ•˜๋‚˜๋Š” Supervised Learning์œผ๋กœ ์ •๋‹ต label ์—†์ด ์ž…๋ ฅ๊ฐ’ x์™€ ์ถœ๋ ฅ๊ฐ’ y์˜ ๊ฒฝํ–ฅ์„ฑ์„ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ์ด๊ณ  ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” Unsupervised Learning์œผ๋กœ ํ™•๋ฅ ๋ชจ๋ธ p(x)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒฝํ–ฅ์„ฑ์„ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ์ด๋‹ค.

 

ํ™•๋ฅ ๋ชจ๋ธ์„ ์œ„ํ•ด ๊ฐ€์ •ํ•  ๊ฒƒ๋“ค์ด ์žˆ๋‹ค. X์˜ ๋ฐ์ดํ„ฐ๋“ค์ด ๊ฐ๊ฐ ํ•˜๋‚˜์˜ ๋…๋ฆฝ์ ์ธ ๋ถ„ํฌ๋กœ๋ถ€ํ„ฐ ๋„์ถœ๋˜์—ˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

๊ทธ๋ฆฌ๊ณ  ์—ฌ๊ธฐ์„œ ์šฐ๋ฆฌ๊ฐ€ ๊ตฌํ•  ๊ฒƒ์€ ํ™•๋ฅ  ๋ชจ๋ธ์ด๋ฉฐ, ์ด๋Š” X์˜ ๋ถ„ํฌ๋“ค์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ด๋‹ค. ์‚ฌ์‹ค ๊ทธ๋Ÿฌํ•œ ๊ฐ€์ • ์—†์ด ๊ด€์ธกํ•œ ๊ฐ’๋“ค๋กœ ๋ถ€ํ„ฐ Probability Mass Function์„ ๋„์ถœํ•  ์ˆ˜ ์žˆ๊ธฐ๋Š” ํ•˜๋‹ค. ๋‹ค์Œ์˜ ์‚ฌ๋ก€๋ฅผ ๋ณด๋ฉด, ์ž๋…€์˜ ์ˆ˜์— ๋Œ€ํ•œ ํ™•๋ฅ ํ‘œํ˜„์„ ํ•˜๊ณ  ์‹ถ์€ ๊ฒฝ์šฐ ๊ฐ ์ž๋…€ ์ˆ˜์— ๋Œ€ํ•œ ๋ณ€์ˆ˜๋ฅผ X๋กœ ๋‘์–ด ์ด 7๊ฐ€์ง€์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. 

 

๋งŒ์•ฝ X๊ฐ€ ํ‘ธ์•„์†ก ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๊ณ  ๊ฐ€์ •ํ•œ ๊ฒฝ์šฐ์—๋Š” Single Parameter๋ฅผ ๊ฐ€์ง€๋Š” ๋ถ„ํฌ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

Density Estimation

Density Estimation์ด๋ž€ ์ฃผ์–ด์ง„ ์œ ํ•œ ๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋“ค๋กœ๋ถ€ํ„ฐ p.d.f๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.2๊ฐ€์ง€์˜ ๋ฐฉ๋ฒ•์ด ์žˆ๋Š”๋ฐ์ฒซ์งธ๋กœ Parameteric Estimation์€ ๋ช‡๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค๋กœ๋ถ€ํ„ฐ ํŠน์ •ํ•œ ํ•จ์ˆ˜ ํ˜•ํƒœ(๋ถ„ํฌ)๋ฅผ ๊ฐ€์ •ํ•˜๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์žฅ ์ž˜ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์„ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค.๋‘˜์งธ๋กœ Nonparameteric Estimation์€ ํŠน์ •ํ•œ ํ•จ์ˆ˜ ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ•˜์ง€ ์•Š๊ณ  ์ „์ฒด ๋ฐ์ดํ„ฐ ์…‹์œผ๋กœ๋ถ€ํ„ฐ ๋ถ„ํฌ๋ฅผ ์ฐพ์•„๊ฐ€๋Š” ๊ณผ์ •์ด๋‹ค. ์˜ˆ๋กœ ํžˆ์Šคํ† ๊ทธ๋žจ๊ณผ kernel density estimation์ด ์žˆ๋‹ค.

 

 

 

Parametric Estimation

 

๋ณดํ†ต ํ†ต๊ณ„์  ๋ชจ๋ธ(Statistical Model)์ด ์ ์ ˆํžˆ ๋ช…์‹œ๋˜์–ด์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค.

๋˜ํ•œ ์„ธํƒ€๋Š” True Parameter๋ผ๊ณ  ๋ถˆ๋ฆฌ๋ฉฐ ์•Œ์ง€ ๋ชปํ•˜๋Š” ๊ฐ’์ด๋‹ค. Statistical ์‹คํ—˜์˜ ๋ชฉํ‘œ๋Š” ์„ธํƒ€๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ๋‹ค. ํ•˜์ง€๋งŒ ๊ทผ๋ณธ์ ์ธ ๋ฌธ์ œ๋Š” ๋ฐ์ดํ„ฐ ์…‹์œผ๋กœ๋ถ€ํ„ฐ ์–ป์€ ์„ธํƒ€ ์ค‘ True parameter ์„ธํƒ€์— ๊ทผ์ ‘ํ•˜๋Š” ๊ฐ’์„ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. ๋ณดํ†ต ๊ทผ์‚ฌ์น˜์˜ ์ •ํ™•๋„๋Š” Bias์™€ Variance๋กœ ์ธก์ •์ด ๋œ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ Bias๋ฅผ ์‚ดํŽด๋ณด๋ฉด Expectation์ด ๋ถ™์€ ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋Š” ๋ชจ๋“  Observation์ด ๊ณ ์ •๋˜์ง€ ์•Š์•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐ๋Œ€์น˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค. 

 

์ถ”์ •์น˜์˜ Quality๋ฅผ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด ๋ณดํ†ต Risk ๋ผ๋Š” ๊ฒƒ์„ ์‚ฌ์šฉํ•˜๋Š”๋ฐ ์ด Term์€ Expected Squared Error๋ฅผ

๊ณ„์‚ฐํ•˜๋Š” ๊ณผ์ •์—์„œ ๋„์ถœ๋œ ๊ฒƒ์„ ์ •๋ฆฌํ•œ ๊ฒƒ์ด๋‹ค.