λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°
πŸš“ Self Study/πŸ”΄ Machine Learning

[λ°©ν•™ 쀑 곡뢀] Machine Learning. Density Estimation #2 - MLE for Gaussian, KDE and kNN, k nearest Neighbor

by UKHYUN22 2022. 8. 10.
728x90

 

κ°€μš°μ‹œμ•ˆ λΆ„ν¬μ—μ„œ Log Likelihood ν•¨μˆ˜μ˜ Maximumν•œ νŒŒλΌλ―Έν„°λ₯Ό μ°ΎκΈ° μœ„ν•΄μ„œ Meanκ³Ό Variance에 λŒ€ν•΄μ„œ 미뢄을 ν•œλ‹€. 각 식을 μ „κ°œ ν•˜λ©΄ λ…Έλž€μƒ‰ λ°•μŠ€μ™€ 같은 식이 λ„μΆœλœλ‹€. Mean (Maximum Likelihood)의 경우 각 데이터 x의 Mean 값을 κ°–κ²Œ 되고 Variance (Maximum Likelihood)의 경우 각 λ°μ΄ν„°μ˜ 편차 제곱의 ν‰κ· μœΌλ‘œ ν‘œν˜„μ΄ λ˜λŠ” 것을 확인할 수 μžˆλ‹€. 

 

 

 

 

 

 

Maximum Likelihood for Mean

 

즉 평균에 λŒ€ν•œ ML의 평균을 κ΅¬ν•˜λŠ” 식을 μœ„μ—μ„œ 보자. ν‰κ· μ˜ ML을 κ΅¬ν•˜λŠ” 식은 이전 μŠ¬λΌμ΄λ“œμ—μ„œ ꡬ할 수 μžˆμ—ˆμœΌλ©° μ „κ°œλ₯Ό ν•˜κ²Œ 되면 각각의 데이터에 λŒ€ν•œ 평균을 λ”ν•˜κ²Œ λ˜λŠ” 식을 μœ λ„ν•  수 있고 μ΄λŠ” 평균을 μ˜λ―Έν•˜λ―€λ‘œ κ²°κ΅­ 평균에 λŒ€ν•œ Maximum Likelihood 값은 평균값과 동일해진닀. λ‹€μ‹œ 말해 unbiased라고 ν•  수 μžˆλ‹€. 

 

Maximum Likelihood for variance

 

뢄산에 λŒ€ν•œ 평균을 κ΅¬ν•˜λŠ” 식을 λ‹€μŒκ³Ό 같이 μ „κ°œν•΄λ³΄μž. 이 경우 N-1/N으둜 κ³„μˆ˜κ°€ λΆ™κ²Œ λ˜μ–΄ 원본 λ°μ΄ν„°μ˜ 뢄산보닀 μž‘κ²Œ λ˜λŠ” 것을 λ³Ό 수 μžˆλ‹€. λ‹€μ‹œ 말해 Biased 된 데이터라고 λ³Ό 수 μžˆλ‹€.

 

 

MLEλ₯Ό ν†΅ν•΄μ„œ Overfitting이 λ˜μ—ˆλŠ”μ§€λ₯Ό νŒλ³„ν•  μˆ˜λ„ μžˆλ‹€. μƒ˜ν”Œμ— μ–Όλ§ˆλ‹€ Biasκ°€ λ˜μ—ˆλŠ”μ§€λ₯Ό 확인할 수 있기 λ•Œλ¬Έμ΄λ‹€. 3가지 뢄포λ₯Ό 톡해 μ•Œ 수 μžˆλŠ” 것은 Set의 μ’…λ₯˜μ— λ”°λΌμ„œ 평균 ML은 λ³€ν•˜μ§€λ§Œ λΆ„μ‚° ML은 λ³€ν•˜μ§€ μ•ŠμŒμ„ λ³Ό 수 μžˆλ‹€. (좔후에 μ„€λͺ…을 더 μΆ”κ°€ν•΄μ•Ό κ² λ‹€.. 아직 이해가 μ•ˆλ¨)