본문 바로가기

🚗 Major Study (Bachelor)/🟥 Machine Learning13

Logistic Regression z라는 값이 Weight와 Input의 내적한 Linear Regression이고 이 값이 Sigmoid 함수의 Input 값으로 들어간다. 사실 P라는 확률과 P가 아닌 1-P의 확률의 비율로 표현될 수 있는 것을 Log를 취한 후 P에 대해서 표현을 하면 Sigmoid 함수가 나오게 된다. 즉 확률 값을 0부터 1 사이의 값으로 표현을 하고 Binary Decision을 하기 위함이다. Logistic Regression이라는 것은 그럼 어떻게 데이터를 회기하는 방법일까? Linear Regression이란 데이터의 분포를 가장 잘 표현하는 선하나를 긋는 과정이라고 보면 된다. 그럼 Logistic의 뜻은 여기서 더 나아가 Class를 분류하기 위한 확률 모델을 만들고자 하는 것이다. 그래서 F라는 .. 2022. 12. 8.

Classification Binary Class를 구분할 수 있는 함수를 어떻게 찾을 수 있을지 생각해보자. 각 Input Data에 해당하는 Label이 주어진 상태라고 했을 때 앞으로 들어올 Data에 대해서 분류할 수 있는 함수를 찾는 방법에 대한 설명이다. 만일 표에 5개의 데이터가 있다면 이 분포를 Regression할 수 있는 선을 하나 긋고 반대의 Label을 주어 Regression을 하는 선을 하나 긋게 된다. 그렇게 되면 선이 2개가 생기게 되는데 이를 기준으로 Class 2개에 대해 판별하는 함수를 만들 수 있다. 두 번째로 함수를 설정하는 방식으로는 label이 0인 것들을 오히려 -1로 바꾸어 더 확실한 Regression을 만들어주는 방식이다. 이렇게 되는 경우도 Binary Classification의.. 2022. 12. 6.

Linear Discriminant Analysis(LDA) Approach Classification의 경우를 살펴보자. Classifier를 표현하는 흔한 방법은 Discriminatn 함수를 사용하는 것이다. Input Data에 대해 클래스를 가장 잘 설명할 수 있는 함수를 정의하고 최대값을 가지는 Class를 설정하는 방식이라고 이해하면 된다. 그렇다면 Discriminant 함수는 어떤 것인가. Decision Boundary 란 클래스를 구분할 수 있는 선을 하나 긋는 것이라고 생각하면 된다. 클래스 0에 대해서 가지는 확률값이 높은 경우 클래스 0로 판별, 클래스 1에 대해서 가지는 확률값이 높은 경우 클래스 1로 판별하게 된다. Generative classifier 란 데이터를 생성하기 위한 모델이다. 그렇기 때문에 데이터가 생성될 확률인 Joint Probab.. 2022. 12. 5.

Stochastic Gradient Descent, Regularization(L2 Ridge, L1 Lasso) Gradient Descent에는 두 가 방법이 존재한다. Batch와 Online 방식이고 batch는 전체 데이터를 기준으로 Online은 데이터 하나씩을 기준으로 Weight를 최신화하는 방식이라고 할 수 있다. Batch 학습방법은 전체 학습 데이터를 사용하여 Weight를 한 번에 최신화하는 것이라고 할 수 있다. 전체 데이터를 커버할 수 있어야 하므로 큰 메모리가 필요하다. 또한 모든 데이터를 바탕으로 하기 때문에 최적화 Route가 꽤 안정적으로 나온다는 것이 특징이다. 반면 Online Learning은 Training instance를 사용하여 Weight를 최신화하는 방식으로 메모리가 훨씬 적게 필요하다. 하지만 모든 데이터를 바탕으로 최신화가 되는 것이 아니기 때문에 최적화 Route.. 2022. 12. 5.

Linear Regression, Approach in SLE, probabilistic, Gradient Descent Supervised Learning이란 주어진 Dataset에 해당하는 Label 이 존재하는 Regression이라고 한다. Regression은 적절한 선을 찾는 과정이라고 할 수 있다. Regression은 데이터의 분포를 잘 표현할 수 있는 흐름선을 표현하는 것이고 Classification은 데이터를 잘 나눌 수 있는 분류선을 찾는 것이라고 할 수 있다. 주어진 Data의 분포를 d라고 표현하면 d는 Input vector로 표현되고 y는 Label에 해당하는 desired output 이라고 할 수 있다. 이때의 주어진 목표는 X에서 Y로 대응하는 함수를 찾는 것이다. 그래서 2개의 대표적인 Supervised Learning을 살펴보면 Regression은 주어진 Input data X가 이.. 2022. 12. 5.

Gradient Descent Method (RSS, RMSE, Coefficient of determination) 위의 그래프는 MSE에 해당하는 오차함수 그래프이다. 이 오차의 현재 지점에서의 도함수를 구하여 기울기를 구하고 Iterative 하게 Weight를 최신화하는 방식에 대한 시각화 자료이다. 이때의 a는 learning rate이다. W가 점점 기울기 부호의 반대 방향으로 이동하는 것을 확인할 수 있다. RSS와 RMSE의 개념이 등장한다. RSS는 Mean이 아닌 Residual로 각 오차의 제곱을 평균내는 것이 아닌 그대로 더한 값을 말한다. RMSE는 MSE에 Root를 씌운 형태로 Original 한 오차의 값을 표현하고자 할 때 사용된다. 오차가 음의 값을 가지기 때문에 제곱을 해서 평균을 구했는데 반대로 루트를 씌우게 되면 원래 오차의 크기에 해당하는 값을 구할 수 있기 때문이다. R^2의 개.. 2022. 11. 2.

Introduction to Linear Regression. Perspective of SLE(System of Linear Equation) and Gradient Descent Supervised Learning은 label이 있는 데이터에 대한 학습을 의미한다. Unsupervised Learning의 가장 큰 두 가지 Task는 Classification과 Density Estimation으로 나눌 수 있다. 이는 분포에 대한 가정을 하느냐 안하느냐에 따라서도 세분화되어 나뉜다. 반면 이의 경우 라벨링이 존재하기 때문에 데이터를 어떻게 해석하고 분류하는 지에 대해서를 다룬다고 이해하면 된다. Supervised Learning의 경우 label이 있는 데이터를 기반으로 학습을 하고 최종 목표는 데이터 X에서 Y로 맵핑할 수 있는 함수 F를 찾는 것이다. 이 역시 모델링에 해당한다고 보면 된다. 두 가지 큰 Task에 대해서는 Regression의 경우 연속적인 분포에 대해서.. 2022. 11. 2.

Clustering using Centroid-based approach. What is k-Means Algorithm Centroid-based Approach는 k-Means 알고리즘을 사용한다. 이 접근 방식은 기존의 Hierachical한 방식이 Time과 Space가 너무 많이 소요된다는 점에 착안하여 등장한다. 좀 더 효율적인 알고리즘을 사용한 Clustering 방식이 필요하다. k-Means의 장점은 이해하고 구현하기 쉽다는 것이지만 오직 local minimun만이 얻어진다는 것이 단점이다. 또한 초기화하기 힘들고 outlier에 민감하다는 것이다. k-Means 알고리즘의 아이디어에 대해 알아보자. 각각의 데이터들이 각각의 Cluster로 독립적으로 할당시킨다. Dissimilariy 방식으로 거리 측정 방식을 정의하고, within cluster의 표준편차를 최소화할 수 있는 Cluster로 결정된다... 2022. 11. 1.

Understanding of Unsupervised Learning (Clustering Algorithm) Agglomerative Method. 금까지 살펴봤던 Density Estimation은 Data에 Label이 존재하지 않는 Unsupervised Learning에 해당한다. 이는 머신러닝의 일부에 해당한다. 그렇다면 다른 Learning의 방법은 어떤 것이 있는지 살펴보자. Unsupervised Learning은 주어진 데이터의 Target Output 이 존재하지 않았다. Ground Truth 값이 없다고도 표현한다. 즉, Objective는 데이터의 Interesting Pattern을 찾는 것이다. 이 중에 두 가지의 대표적인 케이스가 존재하는데 첫째는 Density Estimation이고 둘째는 Clustering이다. Density Estimation은 샘플 데이터의 분포를 모델링하는 것이고 Clustering은 비슷한 샘.. 2022. 11. 1.

Understanding about Nonparametric Density Estimation. Parzen Window and kNN Method Parametric Distribution 모델의 경우 데이터의 분포 추정하기가 편리하다는 장점이 있다. 하지만 특정한 functional form에 있어서 제한적이고 적합하지 않은 경우가 발생한다. 이에 반해 Nonparametric 방법은 전반적인 데이터 분포에 대해 가정이 없다는 것이 특징이다. Nonparametric 방법으로는 Histogram이 있다. 당연히 히스토그램은 많이 들어봤지만 이것이 어떻게 Nonparametric한 방법에 속하는지 생각해볼 필요가 있다. Bin이라는 개념이 등장하는데 이는 equally-spaced interval이라고 생각하면 된다. 동일하게 분류된 구간 속에 해당 Data가 얼마나 들어오는지를 측정하는 방식을 채택한다고 생각하면 된다. Bin의 너비를 Vi라고 .. 2022. 11. 1.

이전 1 2 다음

티스토리툴바