๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš— Major Study (Bachelor)/๐ŸŸฅ Machine Learning

MLE about Discrete & Continuous Distributions & Inference about the Exponential Family w.r.t Continuos Distribtion

by UKHYUN22 2022. 11. 1.
728x90

๋ณ€์ˆ˜๊ฐ€ ์ด์‚ฐ์ ์œผ๋กœ ๋ฐœ์ƒํ•˜๋Š”์ง€ ์—ฐ์†์ ์œผ๋กœ ๋ฐœ์ƒํ•˜๋Š” ์ง€์— ๋”ฐ๋ผ ๋ถ„ํฌ์˜ ํ˜•ํƒœ๋ฅผ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค. ํ˜„์žฌ Parameter Estimation์— ๋Œ€ํ•ด์„œ ๋‹ค๋ฃจ๊ณ  ์žˆ์Œ์„ ๊ธฐ์–ตํ•ด์•ผ ํ•œ๋‹ค. ์‚ฌ์‹ค ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ•˜๋Š” ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ๋‹น์—ฐํžˆ Parameter Estimation์ด๋‹ค.

 

ํ‘œ๊ธฐ๋Š” ๋ณดํ†ต ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ํ•œ๋‹ค. ๋ณ€์ˆ˜, Type, Parameter๋ฅผ ์ž‘์„ฑํ•œ๋‹ค. ์œ„์˜ ๊ฒฝ์šฐ Normal Distribution์˜ Type์—์„œ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์— ํ•ด๋‹นํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ •ํ•˜๊ฒ ๋‹ค๋Š” ๋œป์ด ๋œ๋‹ค.

 

๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ๋Š” ๋‘ ๊ฐ€์ง€์˜ ๊ฒฐ๊ณผ๋งŒ์ด ๋‚˜์˜ค๋Š” ๊ฒฝ์šฐ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์ด ๊ฒฝ์šฐ ๋ชจ๋ธ (Likelihood)์€ ๋ฐœ์ƒํ•˜๊ฑฐ๋‚˜ ๋ฐœ์ƒ ์•ˆํ•˜๊ฑฐ๋‚˜์˜ ํ™•๋ฅ ์— ํ•ด๋‹นํ•œ๋‹ค๊ณ  ๋ณด๋ฉด ๋œ๋‹ค. ๊ทธ๋ƒฅ ๊ฐ„๋‹จํ•˜๊ฒŒ ๋ฐœ์ƒํ™•๋ฅ ์„ ๊ณ ๋ คํ•˜๋ฉด ๋œ๋‹ค.

 

 

์ด N๋ฒˆ ์‹œํ–‰๋œ๋‹ค๊ณ  ํ–ˆ์„ ๋•Œ ๊ฐ๊ฐ์˜ ํ™•๋ฅ ์€ ๋…๋ฆฝ์ด๋ฏ€๋กœ ํŒŒ๋ผ๋ฏธํ„ฐ(์„ธํƒ€)์— ๋Œ€ํ•ด ๊ณฑ์…ˆ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ณ , likelihood๋ฅผ ์ž‘์„ฑํ•˜๋ฉด ๋‹ค์Œ์ฒ˜๋Ÿผ ๊ณฑ์…ˆ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ์˜ Parameter Estimation์€ ๊ฒฐ๋ก ์ ์œผ๋กœ ์ตœ๋Œ€ํ™”์‹œํ‚ค๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ(์„ธํƒ€)๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด ๋˜๋Š”๋ฐ ์ด๋•Œ Log๋ฅผ ๋ถ™์—ฌ ๊ณฑ์…ˆ์„ ๋ง์…ˆ์œผ๋กœ ๋ฐ”๊พธ๊ณ  Max value ๊ฐ€ ๋˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ์ˆ˜์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 

Head๊ฐ€ ๋‚˜์˜ค๋ฉด ๊ณ„์‚ฐ๋˜๋Š” ํ™•๋ฅ  1, Tail์ด ๋‚˜์˜ค๋ฉด ๊ณ„์‚ฐ๋˜๋Š” ํ™•๋ฅ  0์— ๋Œ€ํ•ด ๊ฐ๊ฐ N1, N0๋ผ๊ณ  ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ ์‹์ฒ˜๋Ÿผ ์ž‘์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋•Œ ์ตœ๋Œ“๊ฐ’์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ(์„ธํƒ€)์— ๋Œ€ํ•ด์„œ ๋ฏธ๋ถ„์„ ํ•˜์—ฌ 0์ด ๋˜๋Š” ๊ฐ’์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•ด์„œ ์ˆ˜์‹์„ ์ •๋ฆฌํ•˜๋ฉด ์œ„์˜ ์‹์ฒ˜๋Ÿผ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

Binomial Distribution์€ ๊ณ ์ •๋œ ํ™•๋ฅ ์„ ํŒŒํƒ•์œผ๋กœ N๋ฒˆ ์ฝ”์ธ์„ ๋˜์ง€๋Š” ๊ฒฝ์šฐ์— ๋Œ€ํ•œ ๋ถ„ํฌ๋ฅผ ๋งํ•œ๋‹ค. ์ด๋•Œ ๊ฐ๊ฐ์˜ ์ฝ”์ธ์˜ ํ™•๋ฅ ์€ Bernoulli ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค. ์ฆ‰, ๋‘ ๊ฐ€์ง€์˜ ํ™•๋ฅ ๊ฐ’ ๋ฐ–์— ์กด์žฌํ•˜์ง€ ์•Š์Œ์„ ์•Œ์•„์•ผ ํ•œ๋‹ค. N1์€ Head๊ฐ€ ๋‚˜์˜ค๋Š” ๊ฒฝ์šฐ, N์€ ์ „์ฒด ๋˜์ง€๊ฒŒ ๋˜๋Š” ๊ฒฝ์šฐ์˜ ์ˆ˜, ์„ธํƒ€๋Š” Head๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ ์— ํ•ด๋‹นํ•œ๋‹ค.

 

 

Likelihood๋ฅผ ๊ตฌํ•˜๋ผ๋Š” ๊ฒƒ์ด ์–ด๋–ค ๋ง์ธ์ง€ ์ด์ œ ์ดํ•ด๊ฐ€ ์ข€ ๋  ๊ฒƒ์ด๋‹ค. ๋ถ„ํฌ์˜ ์กฐ๊ฑด์— ๋”ฐ๋ฅธ ๋ฐœ์ƒ ํ™•๋ฅ ์— ํ•ด๋‹นํ•œ๋‹ค๊ณ  ๋ณด๋ฉด๋œ๋‹ค. Log-likelihood๋ฅผ ๊ตฌํ•˜๋ฉด ์ง€์ˆ˜๋กœ ์˜ฌ๋ผ๊ฐ„ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐ’์ด Coefficient์ฒ˜๋Ÿผ ๋‚ด๋ ค์˜ฌ ์ˆ˜ ์žˆ๊ณ  ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ ๋ฏธ๋ถ„์„ ์ง„ํ–‰ํ•˜๋ฉด Max ๊ฐ’์„ ๊ฐ€์งˆ ๋•Œ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. ์œ„์˜ ๋„์ถœ ๊ณผ์ •์„ ๋ณด๋ฉด ์ดํ•ดํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ์ด๋Š” Bernoulli ์‹œํ–‰๊ณผ ๋™์ผํ•œ ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋Š”๋ฐ ๊ทธ ์ด์œ ๋Š” ๋‹น์—ฐํžˆ.. ใ…Žใ…Ž

 

Multinomial Distribution์€ ์ฃผ์‚ฌ์œ„๋ฅผ N ๋ฒˆ ๋Œ๋ฆด ๋•Œ์˜ ์˜ˆ์‹œ๋ฅผ ๋“ค๋ฉด ์ดํ•ดํ•˜๊ธฐ ํŽธํ•˜๋‹ค. K๊ฐœ์˜ ๋ฐœ์ƒ ๊ฒฝ์šฐ์˜ ์ˆ˜์— ๋”ฐ๋ฅธ ๊ฐ๊ฐ์˜ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•œ ๊ฒƒ์ด๋‹ค. ์ฆ‰, ๊ฐ๊ฐ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ชจ๋‘ ๋”ํ•˜๋ฉด 1์˜ ํ™•๋ฅ ๊ฐ’์ด ๋‚˜์™€์•ผ ํ•œ๋‹ค. ๋ถ„ํฌ๋Š” ๋‹ค์Œ ์‹์ฒ˜๋Ÿผ ๋‚˜์˜ฌ ๊ฒƒ์ด๊ณ  Maximum likelihood Solution์€ N๊ฐœ ์ค‘์— Nk์— ํ•ด๋‹นํ•˜๋Š” ๊ฒฝ์šฐ์˜ ์ˆ˜์˜ ํ™•๋ฅ ์ด ๋‚˜์˜จ๋‹ค.

 

Poisson Distribution์€ ํŠน์ • ๊ธฐ๊ฐ„๋™์•ˆ ํ‰๊ท ์ ์œผ๋กœ ๋ฐœ์ƒํ•œ ํ™•๋ฅ ์— ๋Œ€ํ•œ ๋ถ„ํฌ๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ๋ถ„ํฌ์ด๋‹ค. ๋ณ€์ˆ˜ X์— ๋Œ€ํ•ด์„œ ๊ฐ€์ง€๋Š” Likelihood ํ•จ์ˆ˜๋Š” ์œ„์˜ ์‹๊ณผ ๋™์ผํ•˜๋‹ค. ์ง€๊ธˆ๊นŒ์ง€ ์‚ดํŽด๋ณธ ๋ถ„ํฌ๋Š” ์ด์‚ฐํ˜• ๋ถ„ํฌ๋กœ ์œ ํ•œ๊ฐœ์˜ Output์„ ๋ฝ‘์•„๋‚ด๋Š” ์‚ฌ๊ฑด์— ๋Œ€ํ•œ ๋ถ„ํฌ์ด๋‹ค.

 

Uniform Distribution์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” X์ถ•์˜ ์‹œ์ž‘๊ณผ ๋ ์ง€์ ์— ํ•ด๋‹นํ•˜๋Š” ๊ฐ’์ด ๋œ๋‹ค. Density function์ด๋ผ๊ณ  ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์€ Uniform Distribution์˜ ํ™•๋ฅ ๊ฐ’์— ํ•ด๋‹นํ•œ๋‹ค๊ณ  ๋ณด๋ฉด ๋œ๋‹ค.

 

๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์ด๋‹ค. ๋งŽ์ด ๋ดค๋˜ Notation์ด๋‹ค. Density function์€ ์œ ๋ช…ํ•œ exp์˜ ์‹์ด๊ณ  ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ์‹์€ ์œ„์˜ ์‚ฌ์ง„๊ณผ ๊ฐ™๋‹ค.

 

๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์˜ Parameter estimation ๊ณผ์ •์„ ์‚ดํŽด๋ณด์ž. ์šฐ์„  Gaussian Density function์— Log๋ฅผ ๋ถ™์ด๋ฉด exp์— ํ•ด๋‹นํ•˜๋Š” ๋ถ€๋ถ„์„ Summation์œผ๋กœ ๋ณ€๊ฒฝํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ตฌํ•ด์•ผ ํ•˜๋Š” ๊ฒƒ์ด ๋ฌด์—‡์ธ์ง€ ํ•ญ์ƒ ์ƒ๊ฐํ•ด์•ผ ํ•˜๋Š”๋ฐ, ์—ญ์‹œ parameter estimation์ด๊ธฐ ๋•Œ๋ฌธ์— ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์žฅ ์ž˜ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์ด๊ณ  ์ด๋•Œ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์— ํ•ด๋‹นํ•œ๋‹ค. ๋‹ค์Œ์ฒ˜๋Ÿผ ๊ตฌํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

 

 

๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋Š” ๋‘๊ฐ€์ง€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์–ด์„œ ํ•ด์„ํ•˜๊ธฐ๋„ ํŽธํ•˜๋ฉด์„œ ์ž์—ฐํ˜„์ƒ์„ ์ž˜ ํ‘œํ˜„ํ•œ๋‹ค๊ณ  ์•Œ๋ ค์ ธ ์žˆ๋‹ค. Central Limit Theorem์ด๋ผ๋Š” ๊ฐœ๋…์ด ๋“ฑ์žฅํ•˜๋Š”๋ฐ, ์ด ์˜๋ฏธ๋Š” ์–ด๋Š์ •๋„ ๋งŽ์€ ์ƒ˜ํ”Œ์ด ์žˆ์œผ๋ฉด Normal Distribution์— ์ ‘๊ทผํ•˜์—ฌ ๋ถ„ํฌํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. roughํ•˜๊ฒŒ ๊ฐ€์ด๋“œ๋ฅผ ํ•˜๊ณ  ์žˆ๋Š”๋ฐ ๋ณดํ†ต ์ ์–ด๋„ 30๊ฐœ ์ด์ƒ์˜ ์ƒ˜ํ”Œ์„ ๊ฐ–๊ณ  ์žˆ์„ ๋•Œ Central Limit Theorem์„ ์ ์šฉํ•œ๋‹ค.

 

 

ํ”ํžˆ ๋งํ•˜๋Š” ์ •๊ทœํ™”๋ผ๊ณ  ๋ณด๋ฉด ๋œ๋‹ค.