๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐ŸŒด Course Review (Master)/๐Ÿš€ ๊ธฐ๊ณ„ ํ•™์Šต

MLE์˜ ๊ตฌ์ฒด์ ์ธ ๋œป๊ณผ ์ถ”์ •๋ฐฉ๋ฒ•. KL Divergence์™€ MLE์˜ ์ƒ๊ด€๊ด€๊ณ„

by UKHYUN22 2024. 3. 7.
728x90

Maximum Likelihood Estimation

Likelihood function์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

ํŒŒ๋ผ๋ฏธํ„ฐ ํ•ด์„์— ๋”ฐ๋ผ ์–ผ๋งˆ๋‚˜ ๊ด€์ธก์น˜๊ฐ€ ์–ผ๋งˆ๋‚˜ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ๋Š”์ง€๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

์ฆ‰, ์ €ํฌ๊ฐ€ ์ง‘์ค‘ํ•ด์•ผ ํ•˜๋Š” ๊ฒƒ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ํ•ด์„ํ•˜๋Š๋ƒ์ธ๋ฐ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ๋ถ€ํ„ฐ ๋„์ถœ๋˜๋Š” ๊ฐ’(์–ผ๋งˆ๋‚˜ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ๊ฐ’ == Likelihood)์ด ๊ฐ€์žฅ ํฐ ๊ฒƒ์„ ์ฐพ๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์ด MLE ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

 

 

๋ณดํ†ต MLE๋ฅผ ๊ตฌํ•  ๋•Œ Log ๋ฅผ ๋ถ™์ด๊ฒŒ ๋˜๋Š”๋ฐ ๊ทธ ์ด์œ ๋Š” Logํ•จ์ˆ˜๋Š” ๋‹จ์ผ ์ฆ๊ฐ€ํ•จ์ˆ˜ ์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐ์กด ์ตœ๋Œ€๊ฐ’์„

๊ฐ–๊ฒŒ๋˜๋Š” ์„ธํƒ€์— ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š๊ณ  ๊ณ„์‚ฐ์„ ๋” ์‰ฝ๊ฒŒํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ Log ์—ฐ์‚ฐ์˜ ๊ฒฝ์šฐ ๊ณฑ์…ˆ์ด ๋ชจ๋‘ ํ•ฉ์œผ๋กœ ํ‘œํ˜„๋˜๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

Binomial Distribution์˜ ๊ฒฝ์šฐ๋ฅผ ์‚ดํŽด๋ณด๋ฉด unknown ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ๋ถ€ํ„ฐ ๋™์ „์„ ๋˜์กŒ์„ ๋•Œ head๊ฐ€ x๋ฒˆ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š” ํ™•๋ฅ ์„ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. Log๋ฅผ ์ทจํ•˜๋ฉด์„œ ๋ง์…ˆ์œผ๋กœ ๋‚˜๋‰˜์–ด์ง€๊ณ , ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์—†๋Š” ํ•ญ์€ ์ƒ์ˆ˜์ฒ˜๋ฆฌ๋˜์–ด

๊ณ„์‚ฐ๋˜๋Š” ๊ณผ์ •์„ ๋ณด๋ฉด ์ดํ•ด๊ฐ€ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

 

 

๋‹ค์Œ์€ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ•˜๋Š” ๊ฒฝ์šฐ ํŒŒ๋ผ๋ฏธํ„ฐ ์„ธํƒ€์˜ ์ถ”์ •ํ•˜๋Š” ๊ณผ์ •์„ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. 

ํ•ด๋‹น ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ์ถ”์ •์˜ ๊ฒฝ์šฐ๋Š” ๋ฐ์ดํ„ฐ ์…‹ ํ•˜๋‚˜๋กœ๋ถ€ํ„ฐ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ๊ณ„์‚ฐํ•œ ๊ฒฝ์šฐ์ด๊ณ  ๋‘ ๋ฒˆ์งธ ์ถ”์ •์˜ ๊ฒฝ์šฐ๋Š” ์ „์ฒด ๋ฐ์ดํ„ฐ ์…‹์œผ๋กœ๋ถ€ํ„ฐ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ๊ณ„์‚ฐํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋กœ์จ Estimator๋Š” unbiased ํ•˜๋‹ค๊ณ  ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ๊ทธ ์ด์œ ๋Š” ๋‘ ๊ฐœ์˜ ์ถ”์ • ๋ชจ๋‘ ํ‰๊ท ์ด ๋™์ผํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

 

 

์œ„์˜ ๋‘ ์ถ”์ •์„ ํ†ตํ•˜์—ฌ ์šฐ๋ฆฌ๋Š” ๊ฒฝํ—˜์ ์œผ๋กœ ํ‰๊ท ์€ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ MLE ๊ฐ’์„ ๊ฐ€์ง„๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

ํ•˜์ง€๋งŒ ์ด๋ฅผ MLE ๋ฅผ ํ†ตํ•˜์—ฌ ์ฆ๋ช…์„ ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. θ1๊ณผ θ2๊ฐ€ ๊ฐ๊ฐ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์— ๊ฐ€๊นŒ์ด ์ถ”์ •๋จ์„ ๋ณด์—ฌ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ•˜๊ณ  ์žˆ์œผ๋ฏ€๋กœ Parameteized Density๋Š” ํ”ํžˆ ์•Œ๊ณ  ์žˆ๋Š” ์ •๊ทœ๋ถ„ํฌ ํ•จ์ˆ˜๋กœ 

์ž‘์„ฑ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์— Log-likihood๋ฅผ ์ทจํ•˜๊ฒŒ ๋˜๋Š” ๊ฒฝ์šฐ ์•„๋ž˜์ฒ˜๋Ÿผ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.

 

Log likelihood ํ•จ์ˆ˜์—์„œ ์ด์ œ ์ตœ๋Œ“๊ฐ’์ด 0์ด ๋˜๋Š” Stationary point๋ฅผ ์ฐพ์•„์•ผ ํ•ฉ๋‹ˆ๋‹ค.

Stationary Point๋ž€ Gradient๊ฐ€ 0์ด ๋˜๋Š” ์ง€์ ์„ ์˜๋ฏธํ•˜๊ณ  θ1๊ณผ θ2์— ๋Œ€ํ•ด ๊ฐ๊ฐ์„ Log likelihood 

ํ•จ์ˆ˜๋ฅผ ๋ฏธ๋ถ„ํ•˜๋ฉด ๊ฒฝํ—˜์ ์œผ๋กœ ์ƒ๊ฐํ•œ ๋ฐ์ดํ„ฐ์— ๊ทผ์ ‘ํ•จ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

 

Kullback-Leibler (KL) divergence

 

๋ณดํ†ต Model๋ฅผ Fitting ํ•œ๋‹ค๊ณ  ํ–ˆ์„ ๋•Œ ์ด๊ฒƒ์€ ๊ฒฝํ—˜์  ๋ถ„ํฌ์™€ ํ™•๋ฅ ์  ๋ชจ๋ธ์˜ ๊ฑฐ๋ฆฌ ์ฐจ์ด๋ฅผ ์ค„์ด๋Š” ๊ฒƒ์œผ๋กœ

ํ•ด์„๋  ์ˆ˜ ์žˆ๋‹ค.  ๊ทธ๋ ‡๋‹ค๋ฉด ์ด๋ ‡๊ฒŒ ์ถ”์ •ํ•œ p.d.f ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ํ™•์ธํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์กด์žฌํ•˜๋Š”๊ฐ€?

Kullback-Leibler divergence ๋ฐฉ๋ฒ•์ด ์กด์žฌํ•œ๋‹ค. KL Matching์˜ ๊ฒฝ์šฐ ๋‘ ๊ฑฐ๋ฆฌ๊ฐ€ ์ตœ์†Œ๊ฐ€ ๋˜๋Š” ์ง€์ ์ด MLE์—์„œ ์ตœ๋Œ€๊ฐ€ ๋˜๋Š” ์ง€์ ์ผํ…๋ฐ ์ด ๋‘ ๊ฐ€์ง€๊ฐ€ ๋™์ผํ•˜๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋Š”์ง€ ์ฆ๋ช…์„ ํ•ด์•ผ ํ•œ๋‹ค. ์•„๋ž˜์—์„œ ๋ณด์ด๋Š” ์ฆ๋ช… ์ค‘ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ์‚ฌ๋ผ์ง€๋Š” ๋ถ€๋ถ„์ด ์กด์žฌํ•˜๋Š”๋ฐ ์ด๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์กด์žฌํ•˜์ง€ ์•Š๋Š” ํ•ญ์ด๋ฏ€๋กœ ์ƒ์ˆ˜์ฒ˜๋ฆฌ๊ฐ€ ๋œ๋‹ค.