Supervised Learning์ด๋ ์ฃผ์ด์ง Dataset์ ํด๋นํ๋ Label ์ด ์กด์ฌํ๋ Regression์ด๋ผ๊ณ ํ๋ค. Regression์ ์ ์ ํ ์ ์ ์ฐพ๋ ๊ณผ์ ์ด๋ผ๊ณ ํ ์ ์๋ค. Regression์ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ์ ํํํ ์ ์๋ ํ๋ฆ์ ์ ํํํ๋ ๊ฒ์ด๊ณ Classification์ ๋ฐ์ดํฐ๋ฅผ ์ ๋๋ ์ ์๋ ๋ถ๋ฅ์ ์ ์ฐพ๋ ๊ฒ์ด๋ผ๊ณ ํ ์ ์๋ค.
์ฃผ์ด์ง Data์ ๋ถํฌ๋ฅผ d๋ผ๊ณ ํํํ๋ฉด d๋ Input vector๋ก ํํ๋๊ณ y๋ Label์ ํด๋นํ๋ desired output ์ด๋ผ๊ณ ํ ์ ์๋ค. ์ด๋์ ์ฃผ์ด์ง ๋ชฉํ๋ X์์ Y๋ก ๋์ํ๋ ํจ์๋ฅผ ์ฐพ๋ ๊ฒ์ด๋ค. ๊ทธ๋์ 2๊ฐ์ ๋ํ์ ์ธ Supervised Learning์ ์ดํด๋ณด๋ฉด Regression์ ์ฃผ์ด์ง Input data X๊ฐ ์ด์ฐ์ด๋ ์ฐ์ ๋ถํฌ์ผ ๊ฒฝ์ฐ ์ด์ ๋์ํ๋ Y๊ฐ์ ์ฐ์์ ํด๋นํ๋ค. Classification์ ์ฃผ์ด์ง Input data X๊ฐ ์ด์ฐ์ด๋ ์ฐ์ ๋ถํฌ์ผ ๊ฒฝ์ฐ ์ด์ ๋์ํ๋ Y๊ฐ์ด ์ด์ฐ ๋ถํฌ์ ํด๋นํ๋ค๊ณ ํ ์ ์๋ค.
Regression์ ๊ฐ๋ตํ๊ฒ ์ดํด๋ณด๋ฉด Y์ ๋ถํฌ๋ ์ฐ์์ ๋ถํฌ์ ๋์ํ๋ ํจ์๋ฅผ ๋ง๋ค ์ ์๋ค.
Classification์ ์คํธ ํํฐ๋ฅผ ์์๋ก ๋ดค์ ๋ ์คํธ์ธ๊ฐ ์๋๊ฐ๋ก ๋ถ๋ฅํ ์ ์๋ ์ด์ฐ๋ฐ์ดํฐ์ ํด๋นํ๋ค๊ณ ํ ์ ์๋ค.
๋ผ๋ฒจ ๋ฐ์ดํฐ์ธ Y๋ฅผ ์ฃผ์ด์ง D-dim X vector๋ก ์์ธกํ๊ธฐ ์ํ ๊ฒ์ด Regression์ ๊ณผ์ ์ด๋ผ๊ณ ์ดํดํด๋ณด์. X๋ ๋ ๋ฆฝ์ ์ธ ๋ณ์, feature์ ํด๋นํ๊ณ Y๋ ์ข ์ ๋ณ์๋ก ๊ฒฐ๊ณผ์ ํด๋นํ๋ค๊ณ ํ ์ ์๋ค. ์๋ฅผ ๋ค๋ฉด ๊ณต๋ถ์ ๊ธฐ๊ฐ์ ๋ฐ๋ผ ์ข ์์ ์ผ๋ก ๋ณํ๋ ์ํ ์ฑ์ , ์ค๋งํธํฐ ๋ฐฐํฐ๋ฆฌ ์ฑ๋ฅ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ ์ต์ฅ ์ฌ์ฉ ๊ฐ๋ฅ ๊ธฐ๊ฐ ๋ฑ์ด ์ด์ ํด๋นํ๋ค๊ณ ํ ์ ์๋ค. Regression์ด๋ผ๊ณ ์ด๋ ต๊ฒ ์๊ฐํ ํ์์์ด X์ ๋์ํ๋ ํจ์ F๋ฅผ ์ฐพ๋ ๊ณผ์ ์ด๋ผ๊ณ ์ดํดํ๋ฉด ํธํ๋ค.
๋ค๋ฅธ ๋ง๋ก ํํ์ ํ๋ฉด x์ y์ ๊ด๊ณ๋ฅผ Estimate ํ๋ ๊ฒ์ด Regression์ ํด๋นํ๋ค.
M์ ๋ชจ๋ธ์ ๋ณต์ก๋๋ผ๊ณ ํ์ ๋ M์ด ๋ณต์กํด์ง ์๋ก ๋ชจ๋ ๋ฐ์ดํฐ์ ๋์ํ๊ฒ ํํํ ์ ์๋ ํจ์๋ก ํํํ ์ ์๋ค. ํ์ง๋ง ์ด ๊ฒฝ์ฐ Overfitting์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ฉฐ ๋ฐ๋๋ก ๋๋ฌด ๊ฐ๋จํ ๊ฒฝ์ฐ Underfit ์ ์ฌ๋ก๊ฐ ๋ฐ์ํ๋ค๋ ์ ์ด ์๋ค.
Linear Regression, Linear ๋ผ๋ ์ฉ์ด๊ฐ ๋ถ๋ ์ด์ ๊ฐ ๋ฌด์์ผ๊น. Y๋ Input Component ๋ค์ Linear combination์ผ๋ก ํํํ ์ ์๋ค๋ ๊ฒ์ด๋ค. Linear combination์ ํฉ๊ณผ ๊ณฑ์ผ๋ก ํํํ ์ ์๋ค๋ ์๋ฏธ์ด๊ณ ๋ฒกํฐ๋ก ์๊ฐํ๋ฉด ์ดํดํ๊ธฐ ์ฌ์ธ ๊ฒ์ด๋ค. ์ด๋ ๊ทธ๋ฆผ์์ ๋ณด์ด๋ w๋ weight์ ํด๋นํ๋ฉฐ ํ๋ผ๋ฏธํฐ๋ก ํํ๋๋ ๊ฒ๋ค์ด๋ค. Input Data X์ coefficient๋ฅผ ๊ณฑํด์ Y๋ก ํํ๋๋ค๊ณ ํด์ Linear๋ผ๋ ์๋ฏธ๊ฐ ๋ถ์ Linear Regression์ด ๋๋ ๊ฒ์ด๋ค. ์ด๋ Input Data X ์์ด W๋ง ์กด์ฌํ๋ ํญ์ด ์กด์ฌํ๋๋ฐ ์ด๋ Constant ํญ์ผ๋ก์จ ์ ํธ์ด์ Bias๋ผ๊ณ ๋ถ๋ฆฐ๋ค. ํจ์๋ก ์๊ฐํ์ ๋๋ Y์ ํธ์ด๋ผ๊ณ ํ ์ ์๋ค.
Deep learning์ ๋ํด ์ด์ง ์ดํด๋ณด๊ณ ์ ํ๋ค. ํด๋น Linear Regresssion๋ค์ ํ๋์ ํ์ต ๋ง์ ๊ตฌ์ฑํ๊ณ ์ด๋ฌํ ๋ง๋ค์ ๊น๊ฒ ์์๋ค๊ณ ํด์ Deep learning์ด ๋๋ ๊ฒ์ด๋ค.
Linear Regression์ ์์๋ก 1 Dim Input์ ์๊ฐํด๋ณผ ์ ์๋ค. y = ax + b ์์ Input x์ ๊ณฑํด์ง๋ Coefficient์ธ a์ Constant์ธ b๊ฐ ์กด์ฌํ๋ค. Linear regression์ a์ b๋ฅผ ๊ฒฐ์ ํ๋ ๊ณผ์ ์ด๋ผ๊ณ ํ ์ ์๋๋ฐ ์ด a์ b๋ฅผ weight๋ผ๊ณ ๋ถ๋ฅธ๋ค.
์ธํ ๋ฐ์ดํฐ๊ฐ 2์ฐจ์์ผ ๊ฒฝ์ฐ๋ฅผ ์๊ฐํด๋ณด๋ฉด ๋์ผํ์ง๋ง X2๊ฐ ์๊ธฐ๊ณ ์ด์ ๋์ํ๋ Coefficient์ Bias๊ฐ ๋์ผํ๊ฒ ์ฆ๊ฐํ๋ค. Dimension์ด ์ฆ๊ฐํ ์๋ก Hyper plane์ด๋ผ๊ณ ๋ถ๋ฅด๊ณ ํ๊ธฐํ๋ ํ์ ํ๋ ์ฐพ๋๋ค๊ณ ์๊ฐํ๋ฉด ์ดํดํ๊ธฐ ํธํ๋ค.
๊ทธ๋ ๋ค๋ฉด Data๋ก๋ถํฐ ์ด๋ป๊ฒ ๋ชจ๋ธ์ ํ์ตํ๋ ๊ฒ์ธ๊ฐ? ๋ชจ๋ธ์ ์ ์ ํ๋ค๋ ๊ฒ์ Linear Regression์ ํตํด์ ๋ฐ์ดํฐ๋ฅผ ์ ํ๊ธฐํ๋ ํจ์ ํ๋๋ฅผ ์ ์ ํ๊ณ Objective function์ ๊ณ ๋ฅธ๋ค. ๋ณดํต MSE๋ก ์ ์ ํด์ ์ค์ฐจ๋ฅผ ํ์ตํ๊ฒ ๋๊ณ , argument๋ฅผ Minimize ํ๋ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๊ณ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ์งํํ๋ค. ์ต์ํํ๋ ์ด์ ๋ ๋ผ๋ฒจ๊ณผ ์ธํ ๋ฐ์ดํฐ์ ์ฐจ์ด๋ฅผ ์์ ๋ ๋ฐฉํฅ๊ณผ ๋์ผํ๋ค.
D dimension ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค๊ณ ํ์ ๋ bias term์ ์ถ๊ฐํด์ D+1 dimension์ด๋ผ๊ณ ๊ฐ์ ์ ํด์ผ ํ๋ค. Linear regression์ด๋ผ๊ณ ํ๋ฉด Weight์ Input vector ๊ฐ์ ๊ณฑ์ ์ผ๋ก ํํํ ์ ์๊ณ Matrix Multiplication์ผ๋ก ํํํ ์ ์๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ Linear Regression์ Inner product between input and weight๋ผ๊ณ ์ ๋ฆฌํ ์ ์๋ค.
Error ํจ์๋ Mean squared Error๋ก Linear Regression๊ณผ Label์ ์ฐจ์ด ์ ๊ณฑ์ ๊ตฌํ๊ณ ์ด๋ฅผ ํ๊ท ๋ธ MSE๋ฅผ Error function์ผ๋ก ์ ์ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ ์ค์ฐจ์ด๋ฏ๋ก ์ค์ฐจ๋ฅผ ์ต์ํํ๋ Weight๋ฅผ ์ฐพ์์ผ ํ๊ธฐ ๋๋ฌธ์ w์ ๋ํด ๋ฏธ๋ถํ์ฌ 0์ด ๋๋ ์ง์ ์ ํ์ธํ๋ค.
MSE๋ฅผ Weight์ ๋ํด์ ๋ฏธ๋ถํ๋ค๊ณ ํ๋ฉด ๋ ธ๋์๊ณผ ๊ฐ์ ์์ ์ป์ ์ ์๋ค. ํ์ง๋ง ์ญ์ Weight์ Input Vector์ ๋ํด์ Matrix Multiplication์ผ๋ก ํํํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ค์ W์ ๋ํ ๋ฐฉ์ ์์ผ๋ก ํํํ ์ ์๋ค.
MSE๋ฅผ Weight์ ๋ํด์ ๋ฏธ๋ถํ ์์ System of Linear equation์ผ๋ก ํํํ๋ฉด ์์ ์์์ฒ๋ผ ํํํ ์ ์๋ค. ์ฐ๋ฆฌ๋ Weight๋ฅผ ๊ตฌํ๊ณ ์ ํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ W์ ๋ํด์ matrix ํํ์ ํ๋ฉด A๋ฅผ Inverseํ์ฌ Label๊ณผ ๊ณฑํ ํํ๊ฐ ๋๋ค.
ํ์ง๋ง Linear Equation ๋ฐฉ์์ผ๋ก ๋ฌธ์ ๋ฅผ ๋ฐ๋ผ๋ณผ ๊ฒฝ์ฐ ๋ฌธ์ ๊ฐ ์๊ธด๋ค. ์๋ํ๋ฉด A matrix๋ฅผ Inverseํ ์ ์์ด์ผ ํ๋๋ฐ ํญ์ ๊ฐ๋ฅํ์ง ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ฆ ๋ค์ ๋งํ๋ฉด Input Vector X๊ฐ Linear Independent ํ์ง ์์ ๊ฐ๋ฅ์ฑ์ด ์๊ธฐ ๋๋ฌธ์ SLE ๋ฐฉ์์ผ๋ก ์ ๊ทผํ์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ์๊ธด๋ค.
๊ทธ๋ ๋ค๋ฉด Linear Regression์ ํ๋ฅ ์ ๊ด์ ์ผ๋ก ๋ฐ๋ผ๋ณด์. Gaussian Distribution์ ๊ทผ๊ฑฐํ์ฌ Log likelihood ํจ์๋ฅผ ์ดํด๋ณด๋ฉด ์์ ์์์ฒ๋ผ ๊ตฌํ ์ ์๋ค. Log likelihood ํจ์๋ฅผ ๊ตฌํ๋ฉด MSE Term์ ๋ฐ๊ฒฌํ ์ ์๋ค. ์ด ๋ถ๋ถ์ ์ง์คํด์ MSE๊ฐ ์๋ RSS๋ฅผ ๊ตฌํ๊ณ ์ด๋ฅผ Weight์ ๋ํด ๋ฏธ๋ถ์ ํ๋ฉด ์์ ์์์ ์ป์ ์ ์๋ค. ํ์ง๋ง ์ด๋๋ Weight์์ ํํ์ ํ๊ณ ์ ํ์ ๋ Input Vector์ Transpose์ Input Vector์ ๊ณฑํ ๊ฒ์ด ํญ์ Inverse ๊ฐ๋ฅํด์ผ ํ๋ค๋ ์ ์ ๊ฐ ํ์ํ๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ด๊ฒ์ ๋์์ฑ ์ผ๋ก Gradient Descent๊ฐ ๋ฑ์ฅํ๋ค.
๋ค์ ์ ๋ฆฌํ์๋ฉด X๊ฐ full rank์ธ ๊ฒฝ์ฐ์๋ง ๊ฐ๋ฅํ๋ค๋ ์ ์ ๊ฐ ํ์ํ๋ค.
์ด ๊ฒฝ์ฐ Objective๋ ๋์ผํ๊ฒ Linear regression๊ณผ Label์ ์ค์ฐจ ์ ๊ณฑ์ ํ๊ท ์ธ MSE๋ก ์ค์ ์ ํ๋ค. Gradient Descent๋ ๊ทธ๋ ๋ค๋ฉด ๋ฌด์์ด ๋ค๋ฅธ๊ฐ? ์์ด๋์ด๋ Weight๋ฅผ Error๋ฅผ ์ต์ํ๋ ๋ฐฉํฅ์ผ๋ก ์ ์ฉ์ ํ๋ ๊ฒ์ด๋ค. ์ด์ ์ ๊ทผ ๋ฐฉ์์ ์ํ๋ฉด Objective function์ ์ต์ํํ๋ ํ Weight๋ฅผ ์ฐพ๋ ๊ฒ์ด์์ง๋ง ์ด ๊ฒฝ์ฐ Weight๋ฅผ ๋ฏธ๋ถํ์ฌ ๋ฐฉํฅ์ ์ค์ ํ๊ณ ํด๋น ๋ฐฉํฅ์ผ๋ก Weight๋ฅผ ์กฐ์ ํ๋ ์์ ์ ๊ทผ์ด๋ผ๊ณ ํ ์ ์๋ค.
Update Rule์ ๋ณด๋ฉด Objective Function ์ Derivation์ด ์ต์ํ๋๋ ์ง์ ์ด ์๋๋ผ ๋ฏธ๋ถ ๋ฐฉํฅ์ Rate๋ฅผ ์ฃผ์ด ์์ ํ๋ ํ์์ด ๋๋ค. Derivative๋ MSE๋ฅผ ๋ฏธ๋ถํ ๊ทธ ์์ด ๋๋ค.
Gradient Descent ๋ฐฉ์์ Error ํจ์์ Optimumํ ๊ณณ์ผ๋ก ๋ฐ๋ณต์ ์ผ๋ก ์ ๊ทผํ๋ ๋ฐฉ์์ด๋ผ๊ณ ํ ์ ์๋ค. ์ด๋ Weight๋ฅผ ์ผ๋ง๋ ๊ณฑํด์ ์ต์ ํ ํ ์ง๋ Learning rate๋ก ํํํ๋ค.