[방학 중 공부] Machine Learning. Density Estimation #1 - density estimation, parameter estimation, MLE

728x90

데이터 샘플을 표현하기 위해서 Vector가 필요하고, 해당 Dataset을 이해하기 위해서는 Sample의 분폴를 알고 있어야 한다.

Density function 으로부터 확률을 추정하는 방법은 관측된 데이터들로 부터 기안한다. 그리고 관측된 데이터들은 Density Function으로부터 추출된 랜덤 샘플이라고 가정한다.

정답 Label이 없는 경우 Unsupervised라고 표현을 하며 그 분포를 알 수 있다. 다시 말해 Population의 Density를 알면 해당 데이터의 분포를 알 수 있다는 것이다.

그리고 이런 Density는 Classification으로 범주화하는 알고리즘에 사용이 된다. Classification의 경우 정답 Label이 존재하며 Baysian Thoerem에 착안하여 Class conditional Density 확률을 추정할 수 있다. 이 경우 parameter Conditional Density의 확률을 반대로 구하여 추정할 수 있다.

Parameter Method

파라미터의 학습을 통해서 발전시켜 나가는 식의 알고리즘을 의미한다. 하지만 여기서 결정해야 할 파라미터의 수는 변하지 않는다. 대표적으로 가우시안 분포, Linear Regression, Logistic Regression, Baesian Inference 등이 있다.

Nonparameter Method

분포에 대한 추정을 하지 않는 것을 의미한다. 데이터로부터 Density를 바로 추정하는 것을 의미한다. 예를 들어 Histogram, Decision Tree, Random Forest, K-nearest Neighbor Classification이 있다. nonparameter Method라고 파라미터를 아예 사용하지 않는 것이 아니라 파라미터의 숫자가 고정되어 있지 않고 그 성질 또한 변할 수도 있다는 것이다.

Estimation Theory

추정을 한다는 것은 어떠한 데이터로 부터 정확한 Label에 대한 분포와 성질을 얻어내지 못하지만 근사를 하는 것을 의밈한다고 보면 된다. 보통 추정을 어떻게 하는지 생각을 해보면 측정되는 데이터에서의 오차를 분석하여 그 오차를 최소화 하는 방향으로 근사하게 되는 것을 생각할 수 있을 것이다.

Bias

학습 알고리즘에서 추정치의 오차를 의미한다. Bias가 높다는 것은 Underfitting을 의미하고 이는 모델이 너무 간단해서 학습 오류가 줄어들지 않는 것을 의미한다. 보통 학습의 반복 횟수가 적거나 모델이 너무 간단하거나 데이터의 양이 너무 적은 경우 다음과 같은 경우가 일어나게 된다.

Variance

분산에 해당하고, 데이터 안의 작은 Fluctuation에 얼마나 민감한지를 포함하고 있는 Error라고 할 수 있다. Variance가 높은 경우 Overfitting을 추측할 수 있다. Overfitting이란 실제 분포보다 학습 샘플 분포에 더 근접하게 되는 현상이다. 그래서 학습 데이터 이외의 다른 데이터에 대해서는 성능을 잘 내지 못하는 것이 특징이다. 학습 데이터가 적거나, 데이터의 특성에 비해 모델이 너무 복잡한 경우에 발생한다.

Bias는 데이터에 있는 모든 정보를 활용하지 않음으로써 지속적으로 잘못된 것을 학습하는 경향성을 의미한다. 반대로 Variance는 데이터 내에 있는 작은 Noise나 Error에 데이터를 Fitting 시키므로써 실제 현상과 관련 없는 것 까지 학습하는 것을 의미한다. 이 두가지 특징에는 Trade Off가 발생하기 마련이다.

수식으로 정리하면 다음과 같이 정리할 수 있다. 발생하는 Error의 평균을 구하기 위해서는 제곱을 해줘야 음의 부호가 사라지고 그것의 Expectation을 구하게 되는 경우 bias와 variance에 해당하는 값의 덧셈으로 표현이 된다. 즉, 어떤 Error를 살펴보면 Bias가 작은 경우 Variance가 클 수 밖에 없고, Bias가 큰 경우 Variance가 작을 수 밖에 없다는 것이다.

Maximum Likelihood Estimation

파라미터의 분포를 추정하는 방법이다. likelihood function을 최대화하므로써 구할 수 있다고 한다. (뒤이어 계속) 그리고 관측되는 데이터들은 가장 발생할 확률이 높은 것들이다. MLE는 통계학에서 굉장히 직관적이고 많이 사용되는 방식이다.

Likelihood 라는 것은 얻은 데이터가 해당 분포로 나왔을 가능성을 의미한다. Likelihood Function은 보통 다음과 같이 표현을 한다. 측정된 데이터를 X라고 하고 추정되는 분포를 '세타' 라고 했을 때 p(x|Theta)로 표현한다. 만일 관측된 데이터들이 Independent한 경우 각 Likehood probability의 곱셈으로 표현할 수 있고 마지막으로 추정 분포가 가우시안의 경우, 평균과 분산을 이용하여 표현할 수 있다.

Log Likelihood

log funtion을 사용하는 이유는 계산의 편의성을 위함이 크다.

가우시안 분포의 MLE

가우시안 분포의 log likelihood함수를 구하면 N개의 샘플 데이터에 대한 가우시안 분포의 로그 합으로 표현할 수 있고 이는 파란색 네모 박스처럼 유도할 수 있다. 그리고 이것을 Maximize하기 위해서 편미분을 하면 Derivation이 0일 때 최대가 되는 것임을 확인할 수 있다.

저작자표시

'🚓 Self Study > 🔴 Machine Learning' 카테고리의 다른 글

[방학 중 공부] Machine Learning. Density Estimation #2 - MLE for Gaussian, KDE and kNN, k nearest Neighbor (0)	2022.08.10
[방학 중 공부] Machine Learning. Information Theory #2 - maximum entropy distribution, conditional theory, KL divergence, M-projection and I-projection, mutual information, cross entropy, transfer entropy (0)	2022.08.10
[방학 중 공부] Machine Learning. Information Theory #1 - laws of thermodynamics, entropy, asymptotic property of entropy (0)	2022.08.10
[방학 중 공부] Machine Learning. Linear Algebra #3 (0)	2022.07.25
[방학 중 공부] Machine Learning. Linear Algebra #2 (0)	2022.07.25

HU's BloG