๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš— Major Study (Bachelor)/๐ŸŸฅ Machine Learning

Understanding about Nonparametric Density Estimation. Parzen Window and kNN Method

by UKHYUN22 2022. 11. 1.
728x90

 

Parametric Distribution ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ ์ถ”์ •ํ•˜๊ธฐ๊ฐ€ ํŽธ๋ฆฌํ•˜๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ํŠน์ •ํ•œ functional form์— ์žˆ์–ด์„œ ์ œํ•œ์ ์ด๊ณ  ์ ํ•ฉํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. ์ด์— ๋ฐ˜ํ•ด Nonparametric ๋ฐฉ๋ฒ•์€ ์ „๋ฐ˜์ ์ธ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ์— ๋Œ€ํ•ด ๊ฐ€์ •์ด ์—†๋‹ค๋Š” ๊ฒƒ์ด ํŠน์ง•์ด๋‹ค.

 

Nonparametric ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” Histogram์ด ์žˆ๋‹ค. ๋‹น์—ฐํžˆ ํžˆ์Šคํ† ๊ทธ๋žจ์€ ๋งŽ์ด ๋“ค์–ด๋ดค์ง€๋งŒ ์ด๊ฒƒ์ด ์–ด๋–ป๊ฒŒ Nonparametricํ•œ ๋ฐฉ๋ฒ•์— ์†ํ•˜๋Š”์ง€ ์ƒ๊ฐํ•ด๋ณผ ํ•„์š”๊ฐ€ ์žˆ๋‹ค. Bin์ด๋ผ๋Š” ๊ฐœ๋…์ด ๋“ฑ์žฅํ•˜๋Š”๋ฐ ์ด๋Š” equally-spaced interval์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋œ๋‹ค. ๋™์ผํ•˜๊ฒŒ ๋ถ„๋ฅ˜๋œ ๊ตฌ๊ฐ„ ์†์— ํ•ด๋‹น Data๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋“ค์–ด์˜ค๋Š”์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐฉ์‹์„ ์ฑ„ํƒํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋œ๋‹ค. Bin์˜ ๋„ˆ๋น„๋ฅผ Vi๋ผ๊ณ  ํ•˜๊ณ  ki ๋Š” ํ•ด๋‹น ๊ตฌ๊ฐ„์— ์ธก์ •๋œ ๊ด€์ธก๊ฐ’์— ํ•ด๋‹นํ•œ๋‹ค. ๊ทธ๋ž˜์„œ ๊ฐ๊ฐ์˜ ํ™•๋ฅ ์„ ๋‹ค์Œ์ฒ˜๋Ÿผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

Bin์˜ width์— ๋”ฐ๋ผ์„œ ํžˆ์Šคํ† ๊ทธ๋žจ์˜ ๋ถ„ํฌ๊ฐ€ ๋‹ฌ๋ผ์ง€๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ๋” ์ด˜์ด˜ํ•˜๊ฒŒ bin์˜ ๋„“์ด๋ฅผ ์„ค์ •ํ•  ์ˆ˜๋ก ๋” Smoothํ•œ ๋ถ„ํฌ๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

 

์ƒ˜ํ”Œ ๊ณต๊ฐ„ ์ค‘ R์ด๋ผ๋Š” ๊ณต๊ฐ„์— ๋ฐ์ดํ„ฐ๊ฐ€ ์†ํ•  ํ™•๋ฅ ์„ P(x)๋ผ๊ณ  ์„ค์ •ํ•œ๋‹ค. N๊ฐœ์˜ ์ƒ˜ํ”Œ์ด ์‹œํ–‰๋  ๋•Œ์˜ ํ™•๋ฅ ์„ Binomial ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค. ๊ฐ๊ฐ์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์€ ์œ„์˜ ์ˆ˜์‹์„ ๋”ฐ๋ฅธ๋‹ค. 

 

๋งŒ์ผ ์ƒ˜ํ”Œ ๊ณต๊ฐ„์ธ R์ด ๋งค์šฐ ์ž‘๊ณ  ํ•ด๋‹น ๊ณต๊ฐ„ R์˜ ํฌ๊ธฐ๋ฅผ V๋ผ๊ณ  ํ•œ๋‹ค๋ฉด ํ‰๊ท ์€ P(x) x V ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด P = o/V = k / NV ์— ํ•ด๋‹นํ•˜๋Š”๋ฐ P(x)๊ฐ€ ๋” ์ •ํ™•ํ•œ ๊ฐ’์„ ๊ฐ–๊ธฐ ์œ„ํ•ด์„œ๋Š” ์–ด๋–ป๊ฒŒ ํ•ด์•ผ ํ•˜๋Š”๊ฐ€. ๋ณดํ†ต N (๋ฐ์ดํ„ฐ ํฌ๊ธฐ)์˜ ๊ฐ’์€ ๊ณ ์ •๋˜์–ด ์žˆ๊ณ , V์˜ ๊ฐ’์ด ์ถฉ๋ถ„ํžˆ ์ปค์•ผ ํ•œ๋‹ค.

 

Nonparametric Density Estimation์€ ๊ทธ๋Ÿฌ๋ฉด Bin์˜ Width๋งŒ ์ž˜ ์„ค์ •ํ•˜๋ฉด ๋˜๋Š” ๊ฒƒ์ธ๊ฐ€? ์‚ฌ์‹ค ์—ฌ๋Ÿฌ ๊ฐ€์ง€ Issue๋“ค์ด ์กด์žฌํ•œ๋‹ค. Starting Point ๋ฌธ์ œ๊ฐ€ ์กด์žฌํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ณ ์ฐจ์›์˜ ๊ฒฝ์šฐ Histrogram์ด ์ œ๋Œ€๋กœ ์ž‘๋™ํ•˜์ง€ ์•Š๋Š”๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์•„์ง€๋ฉด Sparseํ•ด์ง€๋Š” ํ˜„์ƒ์ด ๋ฐœ์ƒํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์—๋Š” ๋ฌด์—‡์ด ์žˆ๋Š”๊ฐ€? x์™€ ์œ ์‚ฌํ•œ D๋ฅผ ์ถ”์ •ํ•˜์—ฌ P(x)์˜ PDF๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด๋‹ค. ์–ด๋–ป๊ฒŒ ๋ณด๋ฉด ์šฐํšŒํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋ผ๊ณ  ์ดํ•ดํ•˜๊ณ  ์žˆ์–ด์•ผ ํ• ์ง€๋„ ๋ชจ๋ฅธ๋‹ค.

 

 

๋‹ค์–‘ํ•œ bin์˜ ํฌ๊ธฐ๋ฅผ ๊ฐ€์ง€๋Š” 1์ฐจ์› ๊ณต๊ฐ„์„ ์ƒ๊ฐํ•ด๋ณด์ž. ํ™•๋ฅ ๊ฐ’์€ Bin์˜ ๊ธธ์ด๋ฅผ L ์ด๋ผ๊ณ  ํ–ˆ์„ ๋•Œ ๋‹ค์Œ์ฒ˜๋Ÿผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๋งŒ์ผ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์ด๋ผ๋ฉด L์€ ๊ธธ์ด๊ฐ€ ์•„๋‹Œ V Volume์— ํ•ด๋‹นํ•˜๋Š” ๊ฐ’์œผ๋กœ ๋ณ€๊ฒฝํ•ด์•ผ ํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ๋‘ ๊ฐ€์ง€ ์ ‘๊ทผ๋ฐฉ์‹์„ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค. k / NV ์—์„œ V๋ฅผ ๊ณ ์ •ํ•˜๋Š” KDE์˜ ๋ฐฉ์‹๊ณผ K๋ฅผ ๊ณ ์ •ํ•˜๋Š” kNN์˜ ๋ฐฉ์‹์ด๋‹ค.

 

Kernel Density Estimation์€  ๊ทธ๋Œ€๋กœ Kernel์˜ ํฌ๊ธฐ๋ฅผ ํ†ตํ•ด ์ถ”์ •ํ•˜๋Š” ๋ฐฉ์‹์ด๋ผ๊ณ  ์ดํ•ดํ•˜๋ฉด ์ข‹๋‹ค. Parzen widow์˜ ๋ฐฉ๋ฒ•์ด ์žˆ๋Š”๋ฐ ์ด๋Š” ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ์ค€์œผ๋กœ Volume์— ํ•ด๋‹นํ•˜๋Š” Window ๋ฅผ ํ†ตํ•ด ํ•ด๋‹น ๊ตฌ๊ฐ„์— ์†ํ•˜๋Š” ์ง€๋ฅผ  ํ™•์ธํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. P = k / NV์— ํ•ด๋‹นํ•จ์„ ๊ธฐ์–ตํ•˜์ž. ๋‹ค์Œ ์ˆ˜์‹์€ x๋ฅผ ๊ธฐ์ค€์œผ๋กœ volume์— ๋Œ€ํ•ด ํฌํ•จ๋˜๋Š” ๊ตฌ๊ฐ„์— ์žˆ๋Š”์ง€๋ฅผ ํŒŒ์•…ํ•˜๋Š” ์ˆ˜์‹์ด๋‹ค. 

 

 

KDE ์˜ˆ์‹œ๋ฅผ ์‚ดํŽด๋ณด๋ฉด ๊ฐ๊ฐ์˜ ์ดˆ๋ก์ƒ‰ ์ ์„ ๊ธฐ์ค€์œผ๋กœ x๋ผ๋Š” point 3,9 15์˜ ํ™•๋ฅ ์„ ๊ตฌํ•˜๊ฒŒ ๋œ๋‹ค. ๊ฐ๊ฐ์˜ V = 4, N = 10์— ํ•ด๋‹นํ•˜๋ฉฐ V = 4 ๋ผ๋ฉด x = 4์˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ 2~6์˜ ๋ฒ”์œ„์— point๊ฐ€ ์†ํ•œ๋‹ค๋ฉด 1 ์†ํ•˜์ง€ ์•Š๋Š”๋‹ค๋ฉด 0์˜ ํ™•๋ฅ ์„ ์ฃผ์–ด์„œ ๋”ํ•˜๊ฒŒ ๋œ๋‹ค. 

 

Parzen widow ๋ฐฉ์‹์€ ๋ถˆ์—ฐ์†์ ์ธ ๊ฐ’์„ ๊ฐ€์ง€๋Š” ๊ฒƒ์„ ์œ„์˜ ๊ทธ๋ฆผ์„ ํ†ตํ•ด์„œ ์•Œ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์ฒ˜๋Ÿผ ์—ฐ์†์ ์ธ ๋ถ„ํฌ, ๊ทธ๋ฆฌ๊ณ  ํ•ด๋‹น Point์— ๋” ๊ฐ€๊นŒ์šด ์ง€์ ์— ํ•ด๋‹นํ•˜๋Š” ๊ฒฝ์šฐ์— ๋Œ€ํ•ด์„œ๋Š” ๋” ํฐ ํ™•๋ฅ  ๊ฐ’์„ ์ง€์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ ์šฉํ•œ ๊ฒƒ์ด Smooth kernel์— ํ•ด๋‹นํ•œ๋‹ค.

 

 

Bandwidth์˜ ํฌ๊ธฐ์— ๋”ฐ๋ฅธ Distribution ๋ชจํ˜•์„ ๋ณด๋ฉด ์ž‘์€ ๊ฐ’์„ ์ค€ ๊ฒฝ์šฐ Single Gaussian๊ณผ๋Š” ๋‹ฌ๋ฆฌ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ถ„ํฌ๋ฅผ ํ‘œํ˜„ํ•˜๊ฒŒ ๋˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค. (ํ‘œํ˜„์ด ์ด์ƒํ•œ๋ฐ,,ใ…Žใ…Ž)

 

๋‘ ๋ฒˆ์งธ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” kNN ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค. ์ด๋Š” k / NV ์ค‘์—์„œ  Number of sample์„ ๊ณ ์ •์‹œํ‚ค๋Š” ๊ฒƒ์ด๋‹ค. k๋ฅผ ๊ณ ์ •ํ•œ๋‹ค.

 

์—ฌ๊ธฐ์„œ ๋‹ค์‹œ ํ•œ๋ฒˆ Parametric๊ณผ Nonparametric ๋ฐฉ๋ฒ•์˜ ์ฐจ์ด๋ฅผ ๋ถ„๋ช…ํžˆ ํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค. Parametric ๋ฐฉ์‹์€ ์‰ฝ๊ฒŒ ๋งํ•ด ์ ์ ˆํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ์ €์žฅํ•˜๋ฉด ๋ชจ๋ธ์ด ์ €์žฅ๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์—ฐ์‚ฐ์ ์œผ๋กœ ๋” ํšจ์œจ์ ์ด๊ณ  ๊ทธ ๋งŒํผ ๋ชจ๋ธ์ด ์ ์ ˆํ•˜๊ฒŒ ์„ ์ •๋˜์–ด์•ผ ํ•œ๋‹ค๋Š” ๋œป์ด๋‹ค. Nonparametric ๋ฐฉ๋ฒ•์€ ๋” ์œ ์—ฐํ•˜๋‹ค. ์œ ์—ฐํ•˜๋‹ค๋Š” ๊ฒƒ์€ ํŠน์ • ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ•˜์ง€ ์•Š๊ธฐ์— ๋” ํƒ„๋ ฅ์ ์œผ๋กœ ๋ถ„ํฌ๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๋œป์ด๋‹ค. ํ•˜์ง€๋งŒ ํŠน์ • ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ €์žฅํ•œ๋‹ค๊ณ  ๋ถ„ํฌ๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์—†์œผ๋ฏ€๋กœ ๋ชจ๋“  Dataset์„ ์ €์žฅํ•˜๊ณ  ์žˆ์–ด์•ผ ํ•œ๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ์—ฐ์‚ฐ๋Ÿ‰์ด ๋” ๋งŽ์„ ๊ฒƒ์ด๋‹ค.