๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš— Major Study (Bachelor)/๐ŸŸฅ Machine Learning

Linear Regression, Approach in SLE, probabilistic, Gradient Descent

by UKHYUN22 2022. 12. 5.
728x90

 

Supervised Learning์ด๋ž€ ์ฃผ์–ด์ง„ Dataset์— ํ•ด๋‹นํ•˜๋Š” Label ์ด ์กด์žฌํ•˜๋Š” Regression์ด๋ผ๊ณ  ํ•œ๋‹ค. Regression์€ ์ ์ ˆํ•œ ์„ ์„ ์ฐพ๋Š” ๊ณผ์ •์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. Regression์€ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ์ž˜ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ํ๋ฆ„์„ ์„ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์ด๊ณ  Classification์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋Š” ๋ถ„๋ฅ˜์„ ์„ ์ฐพ๋Š” ๊ฒƒ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

์ฃผ์–ด์ง„ Data์˜ ๋ถ„ํฌ๋ฅผ d๋ผ๊ณ  ํ‘œํ˜„ํ•˜๋ฉด d๋Š” Input vector๋กœ ํ‘œํ˜„๋˜๊ณ  y๋Š” Label์— ํ•ด๋‹นํ•˜๋Š” desired output ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋•Œ์˜ ์ฃผ์–ด์ง„ ๋ชฉํ‘œ๋Š” X์—์„œ Y๋กœ ๋Œ€์‘ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ 2๊ฐœ์˜ ๋Œ€ํ‘œ์ ์ธ Supervised Learning์„ ์‚ดํŽด๋ณด๋ฉด Regression์€ ์ฃผ์–ด์ง„ Input data X๊ฐ€ ์ด์‚ฐ์ด๋‚˜ ์—ฐ์† ๋ถ„ํฌ์ผ ๊ฒฝ์šฐ ์ด์— ๋Œ€์‘ํ•˜๋Š” Y๊ฐ’์€ ์—ฐ์†์— ํ•ด๋‹นํ•œ๋‹ค. Classification์€ ์ฃผ์–ด์ง„ Input data X๊ฐ€ ์ด์‚ฐ์ด๋‚˜ ์—ฐ์† ๋ถ„ํฌ์ผ ๊ฒฝ์šฐ ์ด์— ๋Œ€์‘ํ•˜๋Š” Y๊ฐ’์ด ์ด์‚ฐ ๋ถ„ํฌ์— ํ•ด๋‹นํ•œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

Regression์„ ๊ฐ„๋žตํ•˜๊ฒŒ ์‚ดํŽด๋ณด๋ฉด Y์˜ ๋ถ„ํฌ๋Š” ์—ฐ์†์  ๋ถ„ํฌ์— ๋Œ€์‘ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.

 

Classification์€ ์ŠคํŒธ ํ•„ํ„ฐ๋ฅผ ์˜ˆ์‹œ๋กœ ๋ดค์„ ๋•Œ ์ŠคํŒธ์ธ๊ฐ€ ์•„๋‹Œ๊ฐ€๋กœ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ๋Š” ์ด์‚ฐ๋ฐ์ดํ„ฐ์— ํ•ด๋‹นํ•œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๋ผ๋ฒจ ๋ฐ์ดํ„ฐ์ธ Y๋ฅผ ์ฃผ์–ด์ง„ D-dim X vector๋กœ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•œ ๊ฒƒ์ด Regression์˜ ๊ณผ์ •์ด๋ผ๊ณ  ์ดํ•ดํ•ด๋ณด์ž. X๋Š” ๋…๋ฆฝ์ ์ธ ๋ณ€์ˆ˜, feature์— ํ•ด๋‹นํ•˜๊ณ  Y๋Š” ์ข…์„ ๋ณ€์ˆ˜๋กœ ๊ฒฐ๊ณผ์— ํ•ด๋‹นํ•œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค๋ฉด ๊ณต๋ถ€์˜ ๊ธฐ๊ฐ„์— ๋”ฐ๋ผ ์ข…์†์ ์œผ๋กœ ๋ณ€ํ•˜๋Š” ์‹œํ—˜ ์„ฑ์ , ์Šค๋งˆํŠธํฐ ๋ฐฐํ„ฐ๋ฆฌ ์„ฑ๋Šฅ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” ์ตœ์žฅ ์‚ฌ์šฉ ๊ฐ€๋Šฅ ๊ธฐ๊ฐ„ ๋“ฑ์ด ์ด์— ํ•ด๋‹นํ•œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. Regression์ด๋ผ๊ณ  ์–ด๋ ต๊ฒŒ ์ƒ๊ฐํ•  ํ•„์š”์—†์ด X์— ๋Œ€์‘ํ•˜๋Š” ํ•จ์ˆ˜ F๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์ด๋ผ๊ณ  ์ดํ•ดํ•˜๋ฉด ํŽธํ•˜๋‹ค.

 

๋‹ค๋ฅธ ๋ง๋กœ ํ‘œํ˜„์„ ํ•˜๋ฉด x์™€ y์˜ ๊ด€๊ณ„๋ฅผ Estimate ํ•˜๋Š” ๊ฒƒ์ด Regression์— ํ•ด๋‹นํ•œ๋‹ค.

 

M์„ ๋ชจ๋ธ์˜ ๋ณต์žก๋„๋ผ๊ณ  ํ–ˆ์„ ๋•Œ M์ด ๋ณต์žกํ•ด์งˆ ์ˆ˜๋ก ๋ชจ๋“  ๋ฐ์ดํ„ฐ์— ๋Œ€์‘ํ•˜๊ฒŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ํ•จ์ˆ˜๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๊ฒฝ์šฐ Overfitting์˜ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•˜๋ฉฐ ๋ฐ˜๋Œ€๋กœ ๋„ˆ๋ฌด ๊ฐ„๋‹จํ•œ ๊ฒฝ์šฐ Underfit ์˜ ์‚ฌ๋ก€๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค๋Š” ์ ์ด ์žˆ๋‹ค.

 

Linear Regression, Linear ๋ผ๋Š” ์šฉ์–ด๊ฐ€ ๋ถ™๋Š” ์ด์œ ๊ฐ€ ๋ฌด์—‡์ผ๊นŒ. Y๋Š” Input Component ๋“ค์˜ Linear combination์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. Linear combination์€ ํ•ฉ๊ณผ ๊ณฑ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์˜๋ฏธ์ด๊ณ  ๋ฒกํ„ฐ๋กœ ์ƒ๊ฐํ•˜๋ฉด ์ดํ•ดํ•˜๊ธฐ ์‰ฌ์šธ ๊ฒƒ์ด๋‹ค. ์ด๋•Œ ๊ทธ๋ฆผ์—์„œ ๋ณด์ด๋Š” w๋Š” weight์— ํ•ด๋‹นํ•˜๋ฉฐ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ํ‘œํ˜„๋˜๋Š” ๊ฒƒ๋“ค์ด๋‹ค. Input Data X์— coefficient๋ฅผ ๊ณฑํ•ด์„œ Y๋กœ ํ‘œํ˜„๋œ๋‹ค๊ณ  ํ•ด์„œ Linear๋ผ๋Š” ์˜๋ฏธ๊ฐ€ ๋ถ™์€ Linear Regression์ด ๋˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋•Œ Input Data X ์—†์ด W๋งŒ ์กด์žฌํ•˜๋Š” ํ•ญ์ด ์กด์žฌํ•˜๋Š”๋ฐ ์ด๋Š” Constant ํ•ญ์œผ๋กœ์จ ์ ˆํŽธ์ด์ž Bias๋ผ๊ณ  ๋ถˆ๋ฆฐ๋‹ค. ํ•จ์ˆ˜๋กœ ์ƒ๊ฐํ–ˆ์„ ๋•Œ๋Š” Y์ ˆํŽธ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

Deep learning์— ๋Œ€ํ•ด ์‚ด์ง ์‚ดํŽด๋ณด๊ณ ์ž ํ•œ๋‹ค. ํ•ด๋‹น Linear Regresssion๋“ค์„ ํ•˜๋‚˜์˜ ํ•™์Šต ๋ง์„ ๊ตฌ์„ฑํ•˜๊ณ  ์ด๋Ÿฌํ•œ ๋ง๋“ค์„ ๊นŠ๊ฒŒ ์Œ“์•˜๋‹ค๊ณ  ํ•ด์„œ Deep learning์ด ๋˜๋Š” ๊ฒƒ์ด๋‹ค.

 

Linear Regression์˜ ์˜ˆ์‹œ๋กœ 1 Dim Input์„ ์ƒ๊ฐํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค. y = ax + b ์—์„œ Input x์— ๊ณฑํ•ด์ง€๋Š” Coefficient์ธ a์™€ Constant์ธ b๊ฐ€ ์กด์žฌํ•œ๋‹ค. Linear regression์€ a์™€ b๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๊ณผ์ •์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ ์ด a์™€ b๋ฅผ weight๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. 

 

์ธํ’‹ ๋ฐ์ดํ„ฐ๊ฐ€ 2์ฐจ์›์ผ ๊ฒฝ์šฐ๋ฅผ ์ƒ๊ฐํ•ด๋ณด๋ฉด ๋™์ผํ•˜์ง€๋งŒ X2๊ฐ€ ์ƒ๊ธฐ๊ณ  ์ด์— ๋Œ€์‘ํ•˜๋Š” Coefficient์™€ Bias๊ฐ€ ๋™์ผํ•˜๊ฒŒ ์ฆ๊ฐ€ํ•œ๋‹ค. Dimension์ด ์ฆ๊ฐ€ํ•  ์ˆ˜๋ก Hyper plane์ด๋ผ๊ณ  ๋ถ€๋ฅด๊ณ  ํšŒ๊ธฐํ•˜๋Š” ํŒ์„ ํ•˜๋‚˜ ์ฐพ๋Š”๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋ฉด ์ดํ•ดํ•˜๊ธฐ ํŽธํ•œ๋‹ค.

 

๊ทธ๋ ‡๋‹ค๋ฉด Data๋กœ๋ถ€ํ„ฐ ์–ด๋–ป๊ฒŒ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ธ๊ฐ€? ๋ชจ๋ธ์„ ์„ ์ •ํ•œ๋‹ค๋Š” ๊ฒƒ์€ Linear Regression์„ ํ†ตํ•ด์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ํšŒ๊ธฐํ•˜๋Š” ํ•จ์ˆ˜ ํ•˜๋‚˜๋ฅผ ์„ ์ •ํ•˜๊ณ  Objective function์„ ๊ณ ๋ฅธ๋‹ค. ๋ณดํ†ต MSE๋กœ ์„ ์ •ํ•ด์„œ ์˜ค์ฐจ๋ฅผ ํ•™์Šตํ•˜๊ฒŒ ๋˜๊ณ , argument๋ฅผ Minimize ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ๊ณ  ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ง„ํ–‰ํ•œ๋‹ค. ์ตœ์†Œํ™”ํ•˜๋Š” ์ด์œ ๋Š” ๋ผ๋ฒจ๊ณผ ์ธํ’‹ ๋ฐ์ดํ„ฐ์˜ ์ฐจ์ด๋ฅผ ์—†์• ๋Š” ๋ฐฉํ–ฅ๊ณผ ๋™์ผํ•˜๋‹ค.

 

D dimension ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๊ณ  ํ–ˆ์„ ๋•Œ bias term์„ ์ถ”๊ฐ€ํ•ด์„œ D+1 dimension์ด๋ผ๊ณ  ๊ฐ€์ •์„ ํ•ด์•ผ ํ•œ๋‹ค. Linear regression์ด๋ผ๊ณ  ํ•˜๋ฉด Weight์™€ Input vector ๊ฐ„์˜ ๊ณฑ์…ˆ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ณ  Matrix Multiplication์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— Linear Regression์„ Inner product between input and weight๋ผ๊ณ  ์ •๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค.

 

Error ํ•จ์ˆ˜๋Š” Mean squared Error๋กœ Linear Regression๊ณผ Label์˜ ์ฐจ์ด ์ œ๊ณฑ์„ ๊ตฌํ•˜๊ณ  ์ด๋ฅผ ํ‰๊ท  ๋‚ธ MSE๋ฅผ Error function์œผ๋กœ ์ •์˜ํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด๋Š” ์˜ค์ฐจ์ด๋ฏ€๋กœ ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” Weight๋ฅผ ์ฐพ์•„์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— w์— ๋Œ€ํ•ด ๋ฏธ๋ถ„ํ•˜์—ฌ 0์ด ๋˜๋Š” ์ง€์ ์„ ํ™•์ธํ•œ๋‹ค.

 

MSE๋ฅผ Weight์— ๋Œ€ํ•ด์„œ ๋ฏธ๋ถ„ํ•œ๋‹ค๊ณ  ํ•˜๋ฉด ๋…ธ๋ž€์ƒ‰๊ณผ ๊ฐ™์€ ์‹์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์—ญ์‹œ Weight์™€ Input Vector์— ๋Œ€ํ•ด์„œ Matrix Multiplication์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค์‹œ W์— ๋Œ€ํ•œ ๋ฐฉ์ •์‹์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

MSE๋ฅผ Weight์— ๋Œ€ํ•ด์„œ ๋ฏธ๋ถ„ํ•œ ์‹์„ System of Linear equation์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ์œ„์˜ ์ˆ˜์‹์ฒ˜๋Ÿผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. ์šฐ๋ฆฌ๋Š” Weight๋ฅผ ๊ตฌํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— W์— ๋Œ€ํ•ด์„œ matrix ํ‘œํ˜„์„ ํ•˜๋ฉด A๋ฅผ Inverseํ•˜์—ฌ Label๊ณผ ๊ณฑํ•œ ํ˜•ํƒœ๊ฐ€ ๋œ๋‹ค.

 

ํ•˜์ง€๋งŒ Linear Equation ๋ฐฉ์‹์œผ๋กœ ๋ฌธ์ œ๋ฅผ ๋ฐ”๋ผ๋ณผ ๊ฒฝ์šฐ ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธด๋‹ค. ์™œ๋ƒํ•˜๋ฉด A matrix๋ฅผ Inverseํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜๋Š”๋ฐ ํ•ญ์ƒ ๊ฐ€๋Šฅํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ฆ‰ ๋‹ค์‹œ ๋งํ•˜๋ฉด Input Vector X๊ฐ€ Linear Independent ํ•˜์ง€ ์•Š์„ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์— SLE ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ•˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ƒ๊ธด๋‹ค.

 

๊ทธ๋ ‡๋‹ค๋ฉด Linear Regression์„ ํ™•๋ฅ ์˜ ๊ด€์ ์œผ๋กœ ๋ฐ”๋ผ๋ณด์ž. Gaussian Distribution์„ ๊ทผ๊ฑฐํ•˜์—ฌ Log likelihood ํ•จ์ˆ˜๋ฅผ ์‚ดํŽด๋ณด๋ฉด ์œ„์˜ ์ˆ˜์‹์ฒ˜๋Ÿผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. Log likelihood ํ•จ์ˆ˜๋ฅผ ๊ตฌํ•˜๋ฉด MSE Term์„ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ๋ถ€๋ถ„์„ ์ง‘์ค‘ํ•ด์„œ MSE๊ฐ€ ์•„๋‹Œ RSS๋ฅผ ๊ตฌํ•˜๊ณ  ์ด๋ฅผ Weight์— ๋Œ€ํ•ด ๋ฏธ๋ถ„์„ ํ•˜๋ฉด ์œ„์˜ ์ˆ˜์‹์„  ์–ป์„ ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋•Œ๋„ Weight์—์„œ ํ‘œํ˜„์„ ํ•˜๊ณ ์ž ํ–ˆ์„ ๋•Œ Input Vector์˜ Transpose์™€ Input Vector์„ ๊ณฑํ•œ ๊ฒƒ์ด ํ•ญ์ƒ Inverse ๊ฐ€๋Šฅํ•ด์•ผ ํ•œ๋‹ค๋Š” ์ „์ œ๊ฐ€ ํ•„์š”ํ•˜๋‹ค. ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ์ด๊ฒƒ์˜ ๋Œ€์•ˆ์ฑ…์œผ๋กœ Gradient Descent๊ฐ€ ๋“ฑ์žฅํ•œ๋‹ค.

 

๋‹ค์‹œ ์ •๋ฆฌํ•˜์ž๋ฉด X๊ฐ€ full rank์ธ ๊ฒฝ์šฐ์—๋งŒ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ „์ œ๊ฐ€ ํ•„์š”ํ•˜๋‹ค. 

 

์ด ๊ฒฝ์šฐ Objective๋„ ๋™์ผํ•˜๊ฒŒ Linear regression๊ณผ Label์˜ ์˜ค์ฐจ ์ œ๊ณฑ์˜ ํ‰๊ท ์ธ MSE๋กœ ์„ค์ •์„ ํ•œ๋‹ค. Gradient Descent๋Š” ๊ทธ๋ ‡๋‹ค๋ฉด ๋ฌด์—‡์ด ๋‹ค๋ฅธ๊ฐ€? ์•„์ด๋””์–ด๋Š” Weight๋ฅผ Error๋ฅผ ์ตœ์†Œํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ ์šฉ์„ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด์ „ ์ ‘๊ทผ ๋ฐฉ์‹์— ์˜ํ•˜๋ฉด Objective function์„ ์ตœ์†Œํ™”ํ•˜๋Š” ํ•œ Weight๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด์—ˆ์ง€๋งŒ ์ด ๊ฒฝ์šฐ Weight๋ฅผ ๋ฏธ๋ถ„ํ•˜์—ฌ ๋ฐฉํ–ฅ์„ ์„ค์ •ํ•˜๊ณ  ํ•ด๋‹น ๋ฐฉํ–ฅ์œผ๋กœ Weight๋ฅผ ์กฐ์ •ํ•˜๋Š” ์‹์˜ ์ ‘๊ทผ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 Update Rule์„ ๋ณด๋ฉด Objective Function ์˜ Derivation์ด ์ตœ์†Œํ™”๋˜๋Š” ์ง€์ ์ด ์•„๋‹ˆ๋ผ ๋ฏธ๋ถ„ ๋ฐฉํ–ฅ์— Rate๋ฅผ ์ฃผ์–ด ์ˆ˜์ •ํ•˜๋Š” ํ˜•์‹์ด ๋œ๋‹ค. Derivative๋Š” MSE๋ฅผ ๋ฏธ๋ถ„ํ•œ ๊ทธ ์‹์ด ๋œ๋‹ค.

 

Gradient Descent ๋ฐฉ์‹์€ Error ํ•จ์ˆ˜์˜ Optimumํ•œ ๊ณณ์œผ๋กœ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ ‘๊ทผํ•˜๋Š” ๋ฐฉ์‹์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋•Œ Weight๋ฅผ ์–ผ๋งˆ๋‚˜ ๊ณฑํ•ด์„œ ์ตœ์‹ ํ™” ํ• ์ง€๋Š” Learning rate๋กœ ํ‘œํ˜„ํ•œ๋‹ค.