Supervised Learning์ label์ด ์๋ ๋ฐ์ดํฐ์ ๋ํ ํ์ต์ ์๋ฏธํ๋ค. Unsupervised Learning์ ๊ฐ์ฅ ํฐ ๋ ๊ฐ์ง Task๋ Classification๊ณผ Density Estimation์ผ๋ก ๋๋ ์ ์๋ค. ์ด๋ ๋ถํฌ์ ๋ํ ๊ฐ์ ์ ํ๋๋ ์ํ๋๋์ ๋ฐ๋ผ์๋ ์ธ๋ถํ๋์ด ๋๋๋ค. ๋ฐ๋ฉด ์ด์ ๊ฒฝ์ฐ ๋ผ๋ฒจ๋ง์ด ์กด์ฌํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ํด์ํ๊ณ ๋ถ๋ฅํ๋ ์ง์ ๋ํด์๋ฅผ ๋ค๋ฃฌ๋ค๊ณ ์ดํดํ๋ฉด ๋๋ค.
Supervised Learning์ ๊ฒฝ์ฐ label์ด ์๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ต์ ํ๊ณ ์ต์ข ๋ชฉํ๋ ๋ฐ์ดํฐ X์์ Y๋ก ๋งตํํ ์ ์๋ ํจ์ F๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค. ์ด ์ญ์ ๋ชจ๋ธ๋ง์ ํด๋นํ๋ค๊ณ ๋ณด๋ฉด ๋๋ค. ๋ ๊ฐ์ง ํฐ Task์ ๋ํด์๋ Regression์ ๊ฒฝ์ฐ ์ฐ์์ ์ธ ๋ถํฌ์ ๋ํด์ ๋ค๋ฃจ๊ณ Classification์ ์ด์ฐ์ ์ธ ๋ถํฌ์ ๋ํด์ ๋ค๋ฃฌ๋ค๋ ์ฐจ์ด์ ์ด ์๋ค.
Notation์ ์์ ์ฌ์ง๊ณผ ๊ฐ๋ค. X๋ Input vector์ด๊ณ (n)์ด ํฌํจ๋๋ฉด N๋ฒ์งธ Instance์ ํด๋นํ๋ค๊ณ ํ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ j๊ฐ ๋ถ์ผ๋ฉด j๋ฒ์งธ column์ ๋ฐ์ดํฐ๋ฅผ ๋ปํ๋ค. Output ๋ณ์์ ๋ํด์๋ ๋์ผํ๊ฒ ์ ์ฉ์ด ๋๊ณ D๋ Dataset์ ์๋ฏธํ๋ค.
Regression์ ์ดํด๋ณด์. ์๋ฏธ๋ง์ ๋ณธ๋ค๋ฉด ํ๊ธฐ๋ผ๊ณ ๋ณผ ์ ์๋ค. ์ ์ ๋ฟ์ง ์์ ๊ฒ์ด๋ค. ๊ทธ๋ฅ ํด๋น ๋ถํฌ๋ฅผ ์ ํํํ๋ ์ ํ๋๋ฅผ ์ฐพ๋ ๊ณผ์ ์ด๋ผ๊ณ ์ดํดํ์. X๋ผ๋ ๋ฐ์ดํฐ๋ ๋ ๋ฆฝ์ ์ธ ๋ณ์์ด๊ณ Y๋ ์ข ์์ ์ธ ๋ณ์์ ํด๋นํ๋ค. ์ฆ, X์ ๋ฐ๋ผ Y์ ๊ฐ์ด ๋ฌ๋ผ์ง๋ ํจ์์ ํด๋นํ๋ค๊ณ ๋ณด๋ฉด๋๋ค. ์ธ๊ณผ๊ด๊ณ๋ผ๊ณ ์ดํดํ์
Regression์ ๋ค๋ฅธ ๋ง๋ก ํ๋ฉด X์ Y์ ์ธ๊ณผ๊ด๊ณ๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค. X์์ Y๋ก ํฅํ๋ ํจ์๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค.
๊ทธ๋ ๋ค๋ฉด ํด๋น ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋ง์กฑํ๋ ํจ์๋ฅผ ์ด๋ป๊ฒ ์ฐพ์ ๊ฒ์ธ๊ฐ? ๋ง์ฝ์ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ๋ฐ๋ผ์ ๊ทธ๋ ธ๋๋ N์ฐจ ํจ์๋ก ํํํด์ผ ํ๋ ๊ฒฝ์ฐ ํจ์๋ฅผ ์ ์ฐพ์๋ค๊ณ ํ ์ ์์๊น? M์ M์ฐจ ํจ์๋ผ๊ณ ํ ๋ M์ ํฌ๊ธฐ์ ๋ฐ๋ฅธ ํจ์์ ๊ฐํ์ ์ดํด๋ณด์. M = 9 ์ธ ๊ฒฝ์ฐ ์ ํํํ๋ค๊ณ ํ ์ ์์๊น? ์ด๊ณณ์์ Overfit์ ๊ฐ๋ ๊ณผ Underfit์ ๊ฐ๋ ์ด ๋ฑ์ฅํ๋ค.
Linear Regression์ X์์ Y๋ก ๊ฐ๋ ํจ์๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค๊ณ ํ๋ค. ํจ์ F(x)๋ฅผ ์ ์ ๋ ๊ฒ ํํํ์ ์ง ์๊ฐ์ ํด๋ณด์. W0๋ฅผ ์ ์ธํ ์ค๋ฅธ์ชฝ์ ์์ผ๋ก๋ ์์ ์ ์ง๋๋ ์ง์ ์ ํํํ ์ ์๊ณ ๊ฐ๊ฐ์ W๋ Coefficient๋ผ๊ณ ํ๋ค. ์ด W๋ค์ด weight์ ํด๋นํ๋ฉฐ W์ ๋น์จ์ ๋ฐ๋ผ์ ํจ์์ ๊ฐํ์ด ๋ฌ๋ผ์ง๊ฒ ๋๋ค. ์ฆ, ๋ชจ๋ธ์ด ๋ณํ๋ค๋ ์๊ธฐ๋ Weight๊ฐ ๋ชจ๋ธ์ ํด๋นํ๋ค๋ ๊ฒ๊ณผ ๊ฑฐ์ ์ ์ฌํ๋ค๊ณ ๋ณด๋ฉด ๋๋ค. W0๋ Y ์ ํธ์ ํด๋นํ๋ฉฐ Constant, Bias term, Intercept๋ผ๋ ์ฉ์ด๋ก ๋ถ๋ฆฐ๋ค. Weight vector๋ ๊ฐ๊ฐ์ Weight๋ฅผ ํ๋์ Column์ผ๋ก ์์ Matrix์ ํด๋นํ๋ค๊ณ ๋ณด๋ฉด ๋๊ณ ์ด๋ฅผ parameter๋ผ๊ณ ํ๋ค.
์ด๋ ๊ฒ ํ๋ ํ๋์ ์ ๊ฒฝ๋ง๋ค์ ๊น๊ฒ ์์์ ํ์ต์ ํ๋ ๊ฒ์ Deep learning์ด๋ผ๊ณ ํ ์ ์๋ค. Roughํ๊ฒ ์ดํดํ์๋ฉด ๊ฐ๊ฐ์ ์ ๊ฒฝ๋ง ์์์ Label๋ก ํฅํ๋๋ก ๋ชจ๋ธ์ ๋ง๋ค์ด์ผ ํ๋๋ฐ, ๊ทธ ๋ชจ๋ธ์ ์ ๋ง์ Weight๋ก ์ด๋ฃจ์ด์ ธ ์๊ณ , ํด๋น Weight๋ฅผ ์กฐ์ ํ์ฌ ๋ ์ข์ ํจ์, ๋ชจ๋ธ์ ๋ง๋๋ ๊ณผ์ ์ด๋ผ๊ณ ๋ณด๋ฉด ์ข๋ค.
Linear Regression์ ์์๋ก 1์ฐจ์ ํจ์๋ฅผ ์ดํด๋ณด์. y = ax + b๋ผ๋ ํจ์์ ํ์ด ์์ ๋ ์ฐ๋ฆฌ๋ ์ ํฉํ a์ b๋ฅผ ์ฐพ์ผ๋ฉด ๋ชจ๋ธ์ธ ํจ์๋ฅผ ์ฐพ๊ฒ ๋๋ ๊ฒ์ด๋ค. ๊ฐ๊ฐ์ a์ b๊ฐ Weight์ ํด๋นํ๋ค๊ณ ํ ์ ์๋ค.
Dimension์ด ๋์์ง ๋๋ ๋ง์ฐฌ๊ฐ์ง๋ก ๊ฐ๊ฐ์ Input์ X1, X2, Y์ ํด๋นํ๊ณ a1, a2, b๋ Weight์ ํด๋นํ๋ค. ์ฐ๋ฆฌ๋ ์ ํฉํ a1, a2, b๋ฅผ ์ฐพ๋ ๊ณผ์ ์ ๊ณ์ ์งํํ๋ ๊ฒ์ด๋ค.
Linear Regression์ด Input Data๋ฅผ ๋ฐ๊ณ ํด๋นํ๋ Label์ ์ฐพ์ ์ ์๋ Weight๋ฅผ ์ฐพ๋ ๊ณผ์ , Model, Function์ ๋ง๋๋ ๊ณผ์ ์ด๋ผ๊ณ ํ ์ ์๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด๋ป๊ฒ ํ์ต์ด ์งํ๋๋์ง ๊ถ๊ธํ์ง ์๋๊ฐ? ์ฐ์ Data๊ฐ ์ฃผ์ด์ง๋ฉด ๋ชจ๋ธ์ ์ ์ ํด์ผ ํ๋ค. ์ด๋ ๋ชจ๋ธ์ด๋ผ ํจ์ ๋ฐ์ดํฐ๋ฅผ ํํํ ์ ์๋ ํจ์๋ฅผ ์ ์ ํ๋ ๊ฒ์ ์๋ฏธํ๋ค. ์๋ฅผ ๋ค์ด 1์ฐจํจ์๋ฅผ ์ ํํ๋ค๊ณ ํ์. ๊ทธ๋ ๋ค๋ฉด ๊ทธ ๋ค์์ Objective function์ ์์ฑํด์ผ ํ๋ค. ์ด๊ฒ์ ํ๋ ๋ชฉ์ ์ ๊ดํ ํจ์๋ฅผ ์ ์ํด์ผ ํ๋๋ฐ, ์ด๋ ์ค์ฐจ๊ฐ ๋๋ค. ์ ์ค์ฐจ์ธ๊ฐ? ์ ์ ํ ๋ชจ๋ธ์ธ 1์ฐจํจ์๊ฐ ์ถ๋ ฅํ๋ Output ๊ณผ label์ ์ฐจ์ด๋ฅผ ๊ณ์ํด์ ์ค์ฌ๋๊ฐ์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ Squared Error๋ฅผ ์ฌ์ฉํ๋ค. Error(D,a,b)๋ผ๊ณ ํ๋๋ฐ D๋ Data์ ํด๋นํ๊ณ a์ b๋ Model์ ํ๋ผ๋ฏธํฐ์ด์ Weight๋ผ๊ณ ํ ์ ์๋ค. ์ค์ฐจ์๋ ์์ ๊ฐ์ด ์์ ์ ์๊ธฐ ๋๋ฌธ์ ์ ๊ณฑ์ ํด์ ์ค์ฐจ์ ํฌ๊ธฐ๋ง์ ๊ณ ๋ คํ๋ ์์ด ๋๋ค. ์ดํ ํ์ต์ด ์งํ๋๋๋ฐ ์ด๋๋ ์๋ฌ๋ฅผ ์ต์ํํ๋ ํ๋ผ๋ฏธํฐ์ด์ Weight์ธ a์ b๋ฅผ ์ ํํ๋ ๊ณผ์ ์ผ๋ก ํ์ต์ด ์งํ๋๋ค.
Linear Regrsesion์ ํจ์์์ ์ดํด๋ณด์. ๊ฐ๊ฐ์ Weight๊ฐ Coefficient๋ก ๊ฐ๊ฐ์ input data์ ๊ณฑํด์ง๊ฒ ๋๋ค. ์ด๋ฅผ Matrix์ ๊ด์ ์ผ๋ก ์ ๊ทผ์ ํด๋ณด์๋ฉด ๊ฐ๊ฐ์ Row์ Column์ด ๊ณฑํด์ง๋ Matrix Multiplaction์ ๋ถ๊ณผํ๋ค. ์ฆ ํํ์ ํ๋ฉด w^tx ๋ก ํํํ ์ ์๋ค. ๋ค์ ์ ์๋ฅผ ํ์๋ฉด Linear Regression์ด๋ Input๊ณผ Weight ์ฌ์ด์ Inner Product์ ํด๋นํ๋ค๊ณ ํ ์ ์๋ค.
Error Function์ MSE๋ก ํํ์ด ๋๋๋ฐ label์ ๊ฐ๊ณผ ๋ชจ๋ธ์ด ์ถ๋ ฅํ๋ Output ์ ์ฐจ์ด๋ฅผ ์ ๊ณฑ์ ํ๋ค. (์ ๊ณฑ์ ํธ์ฐจ์ ์์๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํจ) ๊ทธ๋ฆฌ๊ณ N๊ฐ๋ก ๋๋์ด Mean ๊ฐ์ผ๋ก ํํ์ ํ๋ค. Learning์ ๊ทธ๋ผ ์ด๋ค ๊ฒ์ ํ์ตํ๋ ๊ฒ์ธ๊ฐ? MSE์ ์ต์๊ฐ์ ๊ฐ์ง๋ Weight๋ฅผ ํ์ตํ๋ค๊ณ ํ ์ ์๋ค.
Error๋ฅผ ์ต์ํํ๋ Weight์ ๋ํ ํํ์ ์ดํด๋ณด์. Model์ ํจ์๋ Input Data์ Weight์ Inner Product๋ผ๊ณ ํ์ผ๋ฏ๋ก ์์ ์์ฒ๋ผ ํํํ ์ ์๋ค. ์ดํ ์ต์๊ฐ์ ๊ฐ์ง๋ ์ง์ ์ ๊ตฌํ๊ธฐ ์ํด์๋ W์ ๋ํ ๋ฏธ๋ถ์ ๊ตฌํ์ฌ 0์ด ๋๋ ์ง์ ์ ์ ํํด์ผ ํ๋ค. ๊ทธ๋ ๊ฒ ๊ตฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ด W์ ๋ํ ๋ฐฉ์ ์์ ๊ตฌํ ์ ์๋ค.
Optimization์ด๋ผ๋ ๋ป์ ๋ฌด์์ผ๊น? ์ต์ ํ๋ผ๋ ๋ป์ด๊ณ ํ์ต์ ๊ดํ ๊ฒ์์ ๋๋ ์ ์๊ธฐ๋ฅผ ๋ฐ๋๋ค. Objective function์ด Minimize๋๋ ์ง์ ์ ์์์ ๊ตฌํ๋ค. ๊ทธ๋ ๋ค๋ฉด W์ ๋ํด์ ํํํ ์ ์์ด์ผ ํ๋ค. ์ด๋ฅผ W์ ๋ํด์ ๋์ด์ ํ๋ฉด Aw = b๋ผ๋ ์ผ๋ฐ์ ์ธ Matrix Multiplication์ ํด๋นํ๋ ์์์ด ์ ๋ฆฌ๋๋ค.
System of Linear Equation์ ํธ๋ ๊ฒ์ผ๋ก ๋ง๋ฌด๋ฆฌํ ์ ์์ ๋ฏํ๋ค. A๋ ๋ฌด์์ธ๊ฐ. Input Data์ธ XtX๊ฐ ๊ทธ์ ํด๋นํ๊ณ ์ญํจ์๋ฅผ ์ทจํ๋ฉด ๋ง์ง๋ง ์์์ฒ๋ผ ๊ตฌํ ์ ์๋ค. ํ์ง๋ง ์ด๊ฒ์ด ์ฑ๋ฆฝํ๊ธฐ ์ํด์๋ A๋ผ๋ ํ๋ ฌ์ด ํญ์ Invertibleํด์ผ ํ๋๋ฐ ํญ์ ๊ทธ๋ฌ์ง ์๋ค๋ ๊ฒ์ ๊ธฐ์ตํด์ผ ํ๋ค.
ํ๋ฅ ์ ์ธ ๊ด์ ์ผ๋ก ์ ๊ทผ์ ํด๋ณด์. Gaussian Distribution์ ๋ฐ๋ฅด๊ณ Mean๊ณผ Variance๋ ๊ฐ๊ฐ ์์ฒ๋ผ ์์ฑํ ์ ์๋ค. Log likelihood ๋ฅผ ๊ตฌํ๋ฉด MSE์ ํํ๋ฅผ ์ฐพ์ ์ ์๊ณ Log-likelihood๋ฅผ ์ต๋ํํ๋ ์ง์ ์ ๊ฐ๊ธฐ ์ํด W์ ๋ํด์ Partial Derivative๋ฅผ ๊ตฌํด๋ณด๋ฉด SLE๋ฅผ ํ์์ ๋์ ์์ ๋์ผํ๊ฒ ๊ตฌํ ์ ์๋ค. ํ์ง๋ง W์ ๋ํด ํํํ๊ธฐ ์ํด์๋ X^TX๊ฐ invertible ํ๋ค๋ ์กฐ๊ฑด์ด ํ์ํ๊ธฐ์ ์ด์ ๋์์ฑ ์ผ๋ก Gradient Descent ๋ฐฉ์์ด ๋ฑ์ฅํ๋ค.
๋ง์ผ X๊ฐ full rank๋ผ๋ฉด A๋ผ๋ Matrix๋ Invertibleํ๊ธฐ ๋๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ Notation์ผ๋ก ์์ฑํ ์ ์๋ค. ํ๋์ ๋ช ์ ๊ฐ ์กด์ฌํ๋๋ฐ, ๋ง์ผ X๊ฐ full rank๋ผ๋ฉด Squrae Objective๋ ํ๋์ Global Minimun ๊ฐ์ ๊ฐ์ง๋ค๋ ๊ฒ์ด๋ค. ์ด์ ์ฆ๋ช ์ ์์์ ๋ณด์ด๋ ๋ฐ์ ๊ฐ๋ค.
Optimization์ Gradient Descent์ ๊ด์ ์์ ํด์์ ํด๋ณด์. ์๋ฌ๋ ๋ผ๋ฒจ๊ณผ ๋ชจ๋ธํจ์์ ์ถ๋ ฅ์ ์ฐจ์ด์ ์ ๊ณฑ์ ๊ฐ์๋ก ๋๋ Mean Squared Error (MSE)๋ผ๊ณ ํ๋ค. ์์์๋ System of Linear Equation (MLE)๋ฅผ ํธ๋ ๊ด์ ์ผ๋ก ์ ๊ทผ์ ํ๋ค๋ฉด ์ด๋ฅผ Gradient Descent ๊ด์ ์ ํ ๋ฒ ๋ฐ๊ฟ๋ณด์๋ ๊ฒ. ์์ด๋์ด๋ ๊ฐ๋จํ๋ค. Error๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก Weight๋ฅผ ์์ ํ๋ ๊ฒ์ด๋ค. ์ด๋ learning Rate๋ผ๋ ๊ฐ๋ ์ด ๋ฑ์ฅํ๋๋ฐ Gradient๊ฐ ๋ณํํ ๋๋ง๋ค ์ผ๋ง๋งํผ์ ๋น์จ๋ก ์์ ํด์ ๋๊ฐ ๊ฒ์ธ์ง์ ๋ํ ์์น๋ฅผ ์ ๊ณตํ๋ค.
Updateํ๋ ๋ฐฉ์์ ๊ธฐ์กด์ Weight์ ๋ค๊ฐ MSE๋ฅผ ์ต์ํํ๋ Weight์ ๋ฐฉํฅ๊ณผ ๋ฐ๋๋ฐฉํฅ์ผ๋ก learning rate๋ฅผ ์ฃผ๋ ๋ฐฉ์์ด๋ค. ์ด๋์ ๋ํจ์๋ MSE๋ฅผ W์ ๋ํด์ ๋ฏธ๋ถํ ์์ด ๋๋ค.