Gradient Descent์๋ ๋ ๊ฐ ๋ฐฉ๋ฒ์ด ์กด์ฌํ๋ค. Batch์ Online ๋ฐฉ์์ด๊ณ batch๋ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์ค์ผ๋ก Online์ ๋ฐ์ดํฐ ํ๋์ฉ์ ๊ธฐ์ค์ผ๋ก Weight๋ฅผ ์ต์ ํํ๋ ๋ฐฉ์์ด๋ผ๊ณ ํ ์ ์๋ค.
Batch ํ์ต๋ฐฉ๋ฒ์ ์ ์ฒด ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ Weight๋ฅผ ํ ๋ฒ์ ์ต์ ํํ๋ ๊ฒ์ด๋ผ๊ณ ํ ์ ์๋ค. ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ปค๋ฒํ ์ ์์ด์ผ ํ๋ฏ๋ก ํฐ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์ํ๋ค. ๋ํ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ํ๊ธฐ ๋๋ฌธ์ ์ต์ ํ Route๊ฐ ๊ฝค ์์ ์ ์ผ๋ก ๋์จ๋ค๋ ๊ฒ์ด ํน์ง์ด๋ค.
๋ฐ๋ฉด Online Learning์ Training instance๋ฅผ ์ฌ์ฉํ์ฌ Weight๋ฅผ ์ต์ ํํ๋ ๋ฐฉ์์ผ๋ก ๋ฉ๋ชจ๋ฆฌ๊ฐ ํจ์ฌ ์ ๊ฒ ํ์ํ๋ค. ํ์ง๋ง ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ์ต์ ํ๊ฐ ๋๋ ๊ฒ์ด ์๋๊ธฐ ๋๋ฌธ์ ์ต์ ํ Route๊ฐ ์์ ์ ์ด์ง ๋ชปํ๋ค. ์ด๊ฒ์ Stochastic Gradient Descent๋ผ๊ณ ๋ถ๋ฅธ๋ค๋ ๊ฒ๋ ๊ธฐ์ตํ์. Online๋ณด๋ค ์ด ์ฉ์ด๊ฐ ํจ์ฌ ๋ ๋ง์ด ์ฐ์ธ๋ค.
Online๊ณผ Batch์ ๊ทธ ์ค๊ฐ์ ์ ์ฉํ๋ฉด ๋์ง ์์๊น? ๊ทธ๋์ Mini Batch๋ผ๋ ๊ฐ๋ ์ด ๋ฑ์ฅํ๋ค. ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ์งํํ๋ ๊ฒ์ด ์๋๋ผ ์ ๋นํ ๋ฐ์ดํฐ ์ ์ ํฌ๊ธฐ๋ฅผ ์ ํ์ฌ ํด๋น ์ฌ์ด์ฆ๋ง๋ค ํ์ต์ ์งํํ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ํ๋ฉด ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ด ์ ์ ํ ์์ค์ผ๋ก ์กฐ์ ํ ์ ์๋ค๋ ๊ฒ์ด ํน์ง์ด๋ค. ์ฉ์ด๋ฅผ ์ดํด๋ณด๋ฉด Batch Size๋ผ๋ ๊ฒ์ ํ์ต Sample์ ๊ฐ์๋ฅผ ์๋ฏธํ๊ณ , Epoch์ ์ ์ฒด ๋ฐ์ดํฐ ์ ์ด ํ ๋ฒ ํ์ต๋์์ ๋๋ฅผ ์๋ฏธํ๋ฉฐ ์ ์ฒด ๋ฐ์ดํฐ ์ ์ด 2000๊ฐ๋ผ๊ณ ํ์ ๋์ Batch๊ฐ 500์ด๋ผ๊ณ ํ ๋ 4๋ฒ Iteration์ ๋์์ ๋ 1 epoch์ด ์์ฑ๋๋ค.
Error function์ ์ดํด๋ณด๋ฉด ์ ์ฒด์ ๋ํ ํ๊ท ์ ๋ด๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ๊ทธ๋ ๋ค๋ฉด ํ๋์ ๋ฐ์ดํฐ ์ ์ ๋ํด์ ์๋ฌ๋ฅผ ๊ตฌํ๋ฉด ๋ฏธ๋ถํ ๊ฒ์ ๊ณ ๋ คํด์ ์ ๊ณฑ์ผ๋ก ํํํ๋ฉด ์์ ์์ฒ๋ผ ํํํ ์ ์๋ค. Online ํ์ต ๋ฐฉ์์ ๊ฒฝ์ฐ ํ๋์ ๋ฐ์ดํฐ๋ง๋ค Weight๋ฅผ ์ต์ ํํ๊ธฐ ๋๋ฌธ์ Error function์ ํ๋์ ๋ฐ์ดํฐ์ ๋ํ MSE๋ฅผ ๊ตฌํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ์์ผ๋ก ๋ณ๊ฒฝ๋๋ ๊ฒ์ด๋ผ๊ณ ๋ณด๋ฉด ๋๋ค.
Stochastic Gradient์ ๊ฒฝ์ฐ Weight๋ฅผ ์ต์ ํํ ๋ mini Batch ๋จ์๋ก ์ ๋ฐ์ดํธ๋ฅผ ์งํํด์ผ ํ๋ฏ๋ก Online Error๋ฅผ ๊ทธ๋๋ก ๊ฐ์ ธ์ค๋ Batch์ ๋ชจ๋ Weight์ ๋ํด์ ์งํํ๋ค. learning Rate๋ ์ด๋ ์ค์ํ ์ญํ ์ ํ๋๋ฐ ์ด๊ธฐ์๋ ์์ ์์๊ฐ์ผ๋ก ์์์ ํ๊ณ ์ ์ฐจ์ ์ผ๋ก ๋น์จ์ ๋ฌ๋ฆฌํ์ฌ learning rate๋ฅผ ์ค์ด๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ์ด๋ฅผ Annealed Learning Rate๋ผ๊ณ ํ๋ค.
Learning rate๋ฅผ ์ด๊ธฐ์ ์์ ์์๋ก ํ๋ ์ด์ ๋ ์์ ๊ทธ๋ํ์ฒ๋ผ ์ด๊ธฐ์ ๋ฐ์ดํฐ์ ๋ํ ์ต์ ํ๋ฅผ ์งํํ ๋ fitting์ผ๋ก jumpํ๋ ๋น์จ์ด ํฌ๊ธฐ ๋๋ฌธ์ ์ด๊ธฐ์ ํฌ๊ฒ ์ฃผ๊ณ ์ ์ ์ค์ฌ์ ์ ๊ทผํ๋ ๋ฐฉ์์ผ๋ก ์งํํด์ผ ํจ์ ์ ์ ์์ ๊ฒ์ด๋ค.
์ง๊ธ๊น์ง ๋ฐฐ์ด ๊ฒ์ Linear Regression์ผ๋ก ์ ํ์ ์ผ๋ก ๊ฒฐํฉํ ํจ์์ ๋ํด์ ์๊ฐ์ ํ์๋ค. ๋ง์ฝ ์ ํ์ ์ผ๋ก ํํํ ์ ์๋ ๋ฐ์ดํฐ๋ฅผ Non-linear ํจ์์ Input์ผ๋ก ๋ฃ์ ์ ์๋ค๋ฉด ์ด๋ป๊ฒ ๋ ๊ฒ์ธ๊ฐ? ์ง๊ธ๊น์ง ์งํํ๋ ๊ฒ์ Weight์ X ์ Matmul์ ๋ํด์๋ง ์ดํด๋ณด์๋ค๋ฉด Input X๋ฅผ non-linearํ๊ฒ ๋ง๋๋ ํจ์์ ๋ฃ์ ๊ฒ๊ณผ Matmul์ ์งํํ๊ณ ์ ํ๋ ๊ฒ์ด๋ค. ๋ง์ผ ์ด๋ ๊ฒ ๋ณํํ์ฌ ํจ์ F๋ฅผ ๊ตฌํ๋ค๊ณ ํ๋๋ผ๋ F๋ ์ฌ์ ํ Weight์ ๋ํด์ Linearํจ์ ์ ์งํ๊ณ ์์์ ๊ธฐ์ตํ์.
์ด๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ์ดํดํด๋ณด์. Original Input์ Weight์ ๋ฐ๋ก ๊ณฑํ๋ ๊ฒ์ด ์๋๋ผ ๋น์ ํ์ฑ์ผ๋ก ๋ถ์ฌํ Feature function์ ๋ง๋ค๊ณ Weight์ ๊ณฑํ๋ ๊ฒ์ผ๋ก ์ดํดํ๋ฉด ๋ ๊ฒ์ด๋ค.
1์ฐจ์ ๋ฐ์ดํฐ์ ๋ง๋ ๋คํญ์ ๊ณก์ ์ ๋ง๋ ๋ค๊ณ ์๊ฐํด๋ณด์. 3์ฐจ ๋คํญ์์ ๊ฒฝ์ฐ 3-dim๊น์ง ์งํ๋๋ฉฐ ๋ชจ๋ธ์ 1์ฐจ์ ๋ฐ์ดํฐ๋ง์ ๋ฐ์ง๋ง ์ด ๊ฒฝ์ฐ 3์ฐจ Dimension๊น์ง ํ์ฅ๋ non linear expansion์ ์งํํ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์๋ค.
๋ค๋ฅธ ๊ฒฝ์ฐ๋ฅผ ์ดํด๋ณด์. 2์ฐจ์ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅ์ ๋ฐ๊ณ Feature์ ํํ์ 5๊ฐ๊น์ง ํ ์ ์๋ Multi-dimensional ํจ์๋ฅผ ๋ง๋ ๋ค๊ณ ๋ณด๋ฉด ์์ฒ๋ผ ํํํ ์ ์์ ๊ฒ์ด๋ค.
non linear ์ฑ๊ฒฉ์ ์ฃผ๋ ํจ์๋ก๋ ์์ฒ๋ผ Polynomial, Gaussian, Sigmoid ๋ชจ๋ธ์ด ์กด์ฌํ๋ค.
๋ค์์ผ๋ก ์ดํด๋ณผ ๊ฒ์ Regularization ๊ฐ๋ ์ผ๋ก ์ด๋ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ๋ฎ์ถ๋ ๊ฒ์ด๋ค. Feature๋ฅผ ํ์ฅํ๊ฒ ๋๋ฉด ํญ์ ๋ฐ๋ผ์ค๋ ๋ฌธ์ ๋ ๋ชจ๋ธ์ด ๋ณต์กํด์ง๋ค๋ ๊ฒ์ด๋ค. ๋ชจ๋ธ์ด ๋ณต์กํ ์๋ก Overfitting์ ๊ฐ๋ฅ์ฑ์ด ์ฆ๊ฐํ๋ค. ๋ง์ฝ ๋ณต์ก์ฑ์ด ์ฆ๊ฐํ์ฌ ํ๋ผ๋ฏธํฐ๊ฐ Data์ ์๋ณด๋ค ๋ง์ ๊ฒฝ์ฐ๊ฐ ์๊ธธ ์ ์๋ค. ์ด ๊ฒฝ์ฐ ์ ์ฌ์ ์ผ๋ก Overfitting์ ๋ฌธ์ ๊ฐ ์๊ธด๋ค. Overfitting์ด๋ ๋ชจ๋ธ์ด training Data๋ฅผ ๊ณผํ๊ฒ ํ์ตํ๋ ค๊ณ ํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด ์ผ๋ฐ์ ์ผ๋ก ํํ์ด ๋ถ๊ฐํด์ง๋ ๊ฒฝ์ฐ๋ฅผ ์๋ฏธํ๋ค. ์์ธก์ ์ ํ์ฑ์ ๋ช ๊ฐ์ Coefficient๋ฅผ 0์ผ๋ก ์ค์ ํจ์ผ๋ก์จ ํฅ์์ํฌ ์ ์๋ค. ์๋ง ์ด๋ฅผ Drop out ๋ฐฉ์์ด๋ผ๊ณ ๋ถ๋ฆฐ๋ค. ๋์์ฑ ์ผ๋ก Subset selection, Ridge, Lasso Regression์ด ์๋ค.
Ridge์ lasso ์ ๊ทํ ์ด๋ก ์ด ์ ๋ฑ์ฅํ๋์ง๋ฅผ ์ดํด๋ณด์. ๋ง์ฝ ๋ชจ๋ธ์ด ๋๋ฌด ๋ณต์กํด์ ธ์ Overfitting์ด ๋ฐ์ํ๋ค๋ฉด, ์ด ๋ชจ๋ธ์ ์์ธก ์ ํ์ฑ์ ๋ช Input์ ์ ๊ฑฐํ๋ฉด ์ฌ๋ผ๊ฐ์ง ์์๊น๋ผ๋ ์๊ฐ์์ ์์ํ๋ค. ์ฆ, ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ๋ฎ์ถ์๋ ์์ด๋์ด์์ ์ฐฉ์๋ ๊ฒ์ด๋ค.
Ridge Regression์ ๋จผ์ ์ดํด๋ณด์. ์ด ๊ฒฝ์ฐ Objective ํจ์๋ ๊ธฐ์กด์ MSE์ L2-norm์ ๋ํ ํ์์ด ๋๋ค. ์ ๊ทํ coefficient๋ฅผ L2 penalty์ ๊ณฑํด์ ์งํ์ด ๋๊ณ ๋๋ค๋ฅผ ์๊ฒ ๋ง๋ค๋ฉด Weight๊ฐ ์์์ง๋ค๋ ๊ฒ์ ์ ์ ์๋ค. Bias Term์ ๋ ๋ํด์ ๋ถ์ฐ์ ์ค์ด๋ ๋ฐฉ์์ผ๋ก ์ ๊ทํ๋ฅผ ์ํํ๋ค.
Linear Regression๊ณผ Objective function์ด ๊ฑฐ์ ๋์ผํ๊ณ bias Term์ด ๋ถ์ ์ฐจ์ด์ ๋ฐ์ ์์ผ๋ฏ๋ก ์์ ๋ณด๋ฉด Weight์ ๋๋ค๋ฅผ ๋ํ ๊ฒ์ ํ์ธํ ์ ์๋ค.
Lasso ์ ๊ทํ๋ Ridge์ ๋ค๋ฅด๊ฒ L1 Norm์ Objective function์ ์ถ๊ฐํ๋ ๊ฒ์ด๋ค.
L1์ L2๋ฅผ ์ดํด๋ณด๋ฉด L1์ด weight๋ฅผ 0์ผ๋ก ๋ ๊ธํ๊ฒ ์๋ ด์ํค๋ ๊ฒ์ ์ ์ ์๋ค.
Ridge์ Lasso์ ์ ์ฝ์กฐ๊ฑด์ ์กฐํฉํ์ฌ ๋ผ๊ทธ๋์ฃผ ์น์๋ฒ์ผ๋ก ๊ณ์ฐ์ ํ๋ฉด ๊ฐ Constraint์ ์ ํ ๋ ์ต์์ ์ด ๋๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
'๐ Major Study (Bachelor) > ๐ฅ Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Classification (0) | 2022.12.06 |
---|---|
Linear Discriminant Analysis(LDA) Approach (0) | 2022.12.05 |
Linear Regression, Approach in SLE, probabilistic, Gradient Descent (0) | 2022.12.05 |
Gradient Descent Method (RSS, RMSE, Coefficient of determination) (0) | 2022.11.02 |
Introduction to Linear Regression. Perspective of SLE(System of Linear Equation) and Gradient Descent (0) | 2022.11.02 |