Logistic Regression

728x90

z라는 값이 Weight와 Input의 내적한 Linear Regression이고 이 값이 Sigmoid 함수의 Input 값으로 들어간다. 사실 P라는 확률과 P가 아닌 1-P의 확률의 비율로 표현될 수 있는 것을 Log를 취한 후 P에 대해서 표현을 하면 Sigmoid 함수가 나오게 된다. 즉 확률 값을 0부터 1 사이의 값으로 표현을 하고 Binary Decision을 하기 위함이다.

Logistic Regression이라는 것은 그럼 어떻게 데이터를 회기하는 방법일까? Linear Regression이란 데이터의 분포를 가장 잘 표현하는 선하나를 긋는 과정이라고 보면 된다. 그럼 Logistic의 뜻은 여기서 더 나아가 Class를 분류하기 위한 확률 모델을 만들고자 하는 것이다. 그래서 F라는 함수를 Sigmoid 표기를 통해서 표현을 할 수도 있고, 클래스가 1일 확률 P로 표현할 수도 있다. 그래서 확률이 정해지고 Threshold인 1/2보다 큰 값이면 클래스 1을 선택하고 아니면 클래스 0을 선택하는 분류기를 만들게 된다.

그림을 보면 Linear Regression을 통해서 데이터의 분포를 잘 가를 수 있는 선을 하나 찾게 되고 이에 대한 확률 모델을 만들어서 1/2 값보다 큰 경우와 작은 경우에 대해서 클래스를 나눌 수 있음을 알 수 있다.

Logistic Regression은 Binary Class를 구분하기 위한 작업으로 이해해도 된다. 그래서 Train을 하게 될 경우 Likelihood 함수를 보면 베르누이 확률처럼 표현되는 것을 알 수 있다.

이 경우 Objective function과 헷갈리지 말자. Objective Function은 MSE를 최소화하기 위한 작업을 진행하므로 미분을 하여 0이 되는 지점에 집중을 한다. 하지만 이 경우 발생할 확률의 최댓값을 구해야 하므로 Log-likelihood 개념을 적용하여 최대화할 수 있는 지점을 찾게 된다.

Training의 목적은 Log-likelihood 함수를 최대화할 수 있는 Weight를 찾는 과정이다. 확률의 곱셈이 Log에 의해서 덧셈으로 변경되고 미분을 통해 0이 되는 지점에 집중을 한다. 이 경우 Gradient Descent 처럼 Weight를 최신화해야 하는데 Log함수를 최대화하기 위해서는 현재의 Weight를 증가시켜야 한다. 그렇기 때문에 Gradient ascent를 하게된다는 차이점을 기억하자.

음수를 취하게 되는 경우 Gradient Descent처럼 표현할 수 있다.

Logistic Regression의 Non-linear 특성을 확장시킬 수 있는가. 처음 들어오는 Input Data인 X를 다형함수를 통과하여 Non linearity 성질을 가지도록 부여한다. 이후 Weight와 Mult, Sum을 해서 Sigmoid 함수의 Input으로 값을 주게 되는 경우를 생각해보자.

Non lineariy 성질을 추가하게 되면 모델이 너무 복잡해질 수 있는 문제를 가지고 있다. 이 경우 몇 Input 변수들을 제거할 수 있어야 한다. 이는 모델의 Weight를 0에 가깝게 변경함으로써 해결할 수 있다. 전에서 살펴 봤듯 Ridge와 Lasso의 정규화 이론이 동일하게 등장한다.

Multi Class의 경우 여러 개의 Binary 클래스 문제로 분할할 수 있다. 하지만 아무 Class도 존재할 수 없는 영역과 애매한 영역이 존재한다는 문제점이 등장한다.

저작자표시

'🚗 Major Study (Bachelor) > 🟥 Machine Learning' 카테고리의 다른 글

Classification (0)	2022.12.06
Linear Discriminant Analysis(LDA) Approach (0)	2022.12.05
Stochastic Gradient Descent, Regularization(L2 Ridge, L1 Lasso) (0)	2022.12.05
Linear Regression, Approach in SLE, probabilistic, Gradient Descent (0)	2022.12.05
Gradient Descent Method (RSS, RMSE, Coefficient of determination) (0)	2022.11.02