Parametric Distribution ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ์ ๋ถํฌ ์ถ์ ํ๊ธฐ๊ฐ ํธ๋ฆฌํ๋ค๋ ์ฅ์ ์ด ์๋ค. ํ์ง๋ง ํน์ ํ functional form์ ์์ด์ ์ ํ์ ์ด๊ณ ์ ํฉํ์ง ์์ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ๋ค. ์ด์ ๋ฐํด Nonparametric ๋ฐฉ๋ฒ์ ์ ๋ฐ์ ์ธ ๋ฐ์ดํฐ ๋ถํฌ์ ๋ํด ๊ฐ์ ์ด ์๋ค๋ ๊ฒ์ด ํน์ง์ด๋ค.
Nonparametric ๋ฐฉ๋ฒ์ผ๋ก๋ Histogram์ด ์๋ค. ๋น์ฐํ ํ์คํ ๊ทธ๋จ์ ๋ง์ด ๋ค์ด๋ดค์ง๋ง ์ด๊ฒ์ด ์ด๋ป๊ฒ Nonparametricํ ๋ฐฉ๋ฒ์ ์ํ๋์ง ์๊ฐํด๋ณผ ํ์๊ฐ ์๋ค. Bin์ด๋ผ๋ ๊ฐ๋ ์ด ๋ฑ์ฅํ๋๋ฐ ์ด๋ equally-spaced interval์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค. ๋์ผํ๊ฒ ๋ถ๋ฅ๋ ๊ตฌ๊ฐ ์์ ํด๋น Data๊ฐ ์ผ๋ง๋ ๋ค์ด์ค๋์ง๋ฅผ ์ธก์ ํ๋ ๋ฐฉ์์ ์ฑํํ๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค. Bin์ ๋๋น๋ฅผ Vi๋ผ๊ณ ํ๊ณ ki ๋ ํด๋น ๊ตฌ๊ฐ์ ์ธก์ ๋ ๊ด์ธก๊ฐ์ ํด๋นํ๋ค. ๊ทธ๋์ ๊ฐ๊ฐ์ ํ๋ฅ ์ ๋ค์์ฒ๋ผ ํํํ ์ ์๋ค.
Bin์ width์ ๋ฐ๋ผ์ ํ์คํ ๊ทธ๋จ์ ๋ถํฌ๊ฐ ๋ฌ๋ผ์ง๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ๋ ์ด์ดํ๊ฒ bin์ ๋์ด๋ฅผ ์ค์ ํ ์๋ก ๋ Smoothํ ๋ถํฌ๋ฅผ ๋ง๋ค ์ ์์ ๊ฒ์ด๋ค.
์ํ ๊ณต๊ฐ ์ค R์ด๋ผ๋ ๊ณต๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์ํ ํ๋ฅ ์ P(x)๋ผ๊ณ ์ค์ ํ๋ค. N๊ฐ์ ์ํ์ด ์ํ๋ ๋์ ํ๋ฅ ์ Binomial ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค. ๊ฐ๊ฐ์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ์์ ์์์ ๋ฐ๋ฅธ๋ค.
๋ง์ผ ์ํ ๊ณต๊ฐ์ธ R์ด ๋งค์ฐ ์๊ณ ํด๋น ๊ณต๊ฐ R์ ํฌ๊ธฐ๋ฅผ V๋ผ๊ณ ํ๋ค๋ฉด ํ๊ท ์ P(x) x V ๋ผ๊ณ ํ ์ ์๋ค. ๊ทธ๋ ๋ค๋ฉด P = o/V = k / NV ์ ํด๋นํ๋๋ฐ P(x)๊ฐ ๋ ์ ํํ ๊ฐ์ ๊ฐ๊ธฐ ์ํด์๋ ์ด๋ป๊ฒ ํด์ผ ํ๋๊ฐ. ๋ณดํต N (๋ฐ์ดํฐ ํฌ๊ธฐ)์ ๊ฐ์ ๊ณ ์ ๋์ด ์๊ณ , V์ ๊ฐ์ด ์ถฉ๋ถํ ์ปค์ผ ํ๋ค.
Nonparametric Density Estimation์ ๊ทธ๋ฌ๋ฉด Bin์ Width๋ง ์ ์ค์ ํ๋ฉด ๋๋ ๊ฒ์ธ๊ฐ? ์ฌ์ค ์ฌ๋ฌ ๊ฐ์ง Issue๋ค์ด ์กด์ฌํ๋ค. Starting Point ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ณ ์ฐจ์์ ๊ฒฝ์ฐ Histrogram์ด ์ ๋๋ก ์๋ํ์ง ์๋๋ค. ์ด๋ ๋ฐ์ดํฐ๊ฐ ๋ง์์ง๋ฉด Sparseํด์ง๋ ํ์์ด ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์๋ ๋ฌด์์ด ์๋๊ฐ? x์ ์ ์ฌํ D๋ฅผ ์ถ์ ํ์ฌ P(x)์ PDF๋ฅผ ๋ง๋๋ ๊ฒ์ด๋ค. ์ด๋ป๊ฒ ๋ณด๋ฉด ์ฐํํ๋ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์ดํดํ๊ณ ์์ด์ผ ํ ์ง๋ ๋ชจ๋ฅธ๋ค.
๋ค์ํ bin์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋ 1์ฐจ์ ๊ณต๊ฐ์ ์๊ฐํด๋ณด์. ํ๋ฅ ๊ฐ์ Bin์ ๊ธธ์ด๋ฅผ L ์ด๋ผ๊ณ ํ์ ๋ ๋ค์์ฒ๋ผ ํํํ ์ ์์ ๊ฒ์ด๋ค. ๋ง์ผ ๊ณ ์ฐจ์ ๊ณต๊ฐ์ด๋ผ๋ฉด L์ ๊ธธ์ด๊ฐ ์๋ V Volume์ ํด๋นํ๋ ๊ฐ์ผ๋ก ๋ณ๊ฒฝํด์ผ ํ๋ค. ์ฌ๊ธฐ์ ๋ ๊ฐ์ง ์ ๊ทผ๋ฐฉ์์ ์๊ฐํด๋ณผ ์ ์๋ค. k / NV ์์ V๋ฅผ ๊ณ ์ ํ๋ KDE์ ๋ฐฉ์๊ณผ K๋ฅผ ๊ณ ์ ํ๋ kNN์ ๋ฐฉ์์ด๋ค.
Kernel Density Estimation์ ๊ทธ๋๋ก Kernel์ ํฌ๊ธฐ๋ฅผ ํตํด ์ถ์ ํ๋ ๋ฐฉ์์ด๋ผ๊ณ ์ดํดํ๋ฉด ์ข๋ค. Parzen widow์ ๋ฐฉ๋ฒ์ด ์๋๋ฐ ์ด๋ ํด๋น ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์ค์ผ๋ก Volume์ ํด๋นํ๋ Window ๋ฅผ ํตํด ํด๋น ๊ตฌ๊ฐ์ ์ํ๋ ์ง๋ฅผ ํ์ธํ๋ ๋ฐฉ๋ฒ์ด๋ค. P = k / NV์ ํด๋นํจ์ ๊ธฐ์ตํ์. ๋ค์ ์์์ x๋ฅผ ๊ธฐ์ค์ผ๋ก volume์ ๋ํด ํฌํจ๋๋ ๊ตฌ๊ฐ์ ์๋์ง๋ฅผ ํ์ ํ๋ ์์์ด๋ค.
KDE ์์๋ฅผ ์ดํด๋ณด๋ฉด ๊ฐ๊ฐ์ ์ด๋ก์ ์ ์ ๊ธฐ์ค์ผ๋ก x๋ผ๋ point 3,9 15์ ํ๋ฅ ์ ๊ตฌํ๊ฒ ๋๋ค. ๊ฐ๊ฐ์ V = 4, N = 10์ ํด๋นํ๋ฉฐ V = 4 ๋ผ๋ฉด x = 4์ ๋ฐ์ดํฐ์ ๋ํด์ 2~6์ ๋ฒ์์ point๊ฐ ์ํ๋ค๋ฉด 1 ์ํ์ง ์๋๋ค๋ฉด 0์ ํ๋ฅ ์ ์ฃผ์ด์ ๋ํ๊ฒ ๋๋ค.
Parzen widow ๋ฐฉ์์ ๋ถ์ฐ์์ ์ธ ๊ฐ์ ๊ฐ์ง๋ ๊ฒ์ ์์ ๊ทธ๋ฆผ์ ํตํด์ ์ ์ ์์ ๊ฒ์ด๋ค. ๊ฐ์ฐ์์ ๋ถํฌ์ฒ๋ผ ์ฐ์์ ์ธ ๋ถํฌ, ๊ทธ๋ฆฌ๊ณ ํด๋น Point์ ๋ ๊ฐ๊น์ด ์ง์ ์ ํด๋นํ๋ ๊ฒฝ์ฐ์ ๋ํด์๋ ๋ ํฐ ํ๋ฅ ๊ฐ์ ์ง์ ํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ ์ฉํ ๊ฒ์ด Smooth kernel์ ํด๋นํ๋ค.
Bandwidth์ ํฌ๊ธฐ์ ๋ฐ๋ฅธ Distribution ๋ชจํ์ ๋ณด๋ฉด ์์ ๊ฐ์ ์ค ๊ฒฝ์ฐ Single Gaussian๊ณผ๋ ๋ฌ๋ฆฌ ์ฌ๋ฌ ๊ฐ์ ๋ถํฌ๋ฅผ ํํํ๊ฒ ๋๋ ๊ฒ์ ๋ณผ ์ ์์ ๊ฒ์ด๋ค. (ํํ์ด ์ด์ํ๋ฐ,,ใ ใ )
๋ ๋ฒ์งธ ๋ฐฉ๋ฒ์ผ๋ก๋ kNN ๋ฐฉ๋ฒ์ด ์๋ค. ์ด๋ k / NV ์ค์์ Number of sample์ ๊ณ ์ ์ํค๋ ๊ฒ์ด๋ค. k๋ฅผ ๊ณ ์ ํ๋ค.
์ฌ๊ธฐ์ ๋ค์ ํ๋ฒ Parametric๊ณผ Nonparametric ๋ฐฉ๋ฒ์ ์ฐจ์ด๋ฅผ ๋ถ๋ช ํ ํ ํ์๊ฐ ์๋ค. Parametric ๋ฐฉ์์ ์ฝ๊ฒ ๋งํด ์ ์ ํ ํ๋ผ๋ฏธํฐ๋ง ์ ์ฅํ๋ฉด ๋ชจ๋ธ์ด ์ ์ฅ๋๋ค๋ ๊ฒ์ด๋ค. ์ฐ์ฐ์ ์ผ๋ก ๋ ํจ์จ์ ์ด๊ณ ๊ทธ ๋งํผ ๋ชจ๋ธ์ด ์ ์ ํ๊ฒ ์ ์ ๋์ด์ผ ํ๋ค๋ ๋ป์ด๋ค. Nonparametric ๋ฐฉ๋ฒ์ ๋ ์ ์ฐํ๋ค. ์ ์ฐํ๋ค๋ ๊ฒ์ ํน์ ๋ถํฌ๋ฅผ ๊ฐ์ ํ์ง ์๊ธฐ์ ๋ ํ๋ ฅ์ ์ผ๋ก ๋ถํฌ๋ฅผ ์ฐพ์ ์ ์๋ค๋ ๋ป์ด๋ค. ํ์ง๋ง ํน์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ์ฅํ๋ค๊ณ ๋ถํฌ๋ฅผ ํํํ ์ ์์ผ๋ฏ๋ก ๋ชจ๋ Dataset์ ์ ์ฅํ๊ณ ์์ด์ผ ํ๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ฐ์ฐ๋์ด ๋ ๋ง์ ๊ฒ์ด๋ค.