๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš— Major Study (Bachelor)/๐ŸŸฅ Machine Learning

Stochastic Gradient Descent, Regularization(L2 Ridge, L1 Lasso)

by UKHYUN22 2022. 12. 5.
728x90

Gradient Descent์—๋Š” ๋‘ ๊ฐ€ ๋ฐฉ๋ฒ•์ด ์กด์žฌํ•œ๋‹ค. Batch์™€ Online ๋ฐฉ์‹์ด๊ณ  batch๋Š” ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ์ค€์œผ๋กœ Online์€ ๋ฐ์ดํ„ฐ ํ•˜๋‚˜์”ฉ์„ ๊ธฐ์ค€์œผ๋กœ Weight๋ฅผ ์ตœ์‹ ํ™”ํ•˜๋Š” ๋ฐฉ์‹์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

Batch ํ•™์Šต๋ฐฉ๋ฒ•์€ ์ „์ฒด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Weight๋ฅผ ํ•œ ๋ฒˆ์— ์ตœ์‹ ํ™”ํ•˜๋Š” ๊ฒƒ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ์ปค๋ฒ„ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜๋ฏ€๋กœ ํฐ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค. ๋˜ํ•œ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ตœ์ ํ™” Route๊ฐ€ ๊ฝค ์•ˆ์ •์ ์œผ๋กœ ๋‚˜์˜จ๋‹ค๋Š” ๊ฒƒ์ด ํŠน์ง•์ด๋‹ค.

 

๋ฐ˜๋ฉด Online Learning์€ Training instance๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Weight๋ฅผ ์ตœ์‹ ํ™”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํ›จ์”ฌ ์ ๊ฒŒ ํ•„์š”ํ•˜๋‹ค. ํ•˜์ง€๋งŒ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ตœ์‹ ํ™”๊ฐ€ ๋˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ตœ์ ํ™” Route๊ฐ€ ์•ˆ์ •์ ์ด์ง€ ๋ชปํ•˜๋‹ค. ์ด๊ฒƒ์„ Stochastic Gradient Descent๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค๋Š” ๊ฒƒ๋„ ๊ธฐ์–ตํ•˜์ž. Online๋ณด๋‹ค ์ด ์šฉ์–ด๊ฐ€ ํ›จ์”ฌ ๋” ๋งŽ์ด ์“ฐ์ธ๋‹ค.

 

 

Online๊ณผ Batch์˜ ๊ทธ ์ค‘๊ฐ„์„ ์ ์šฉํ•˜๋ฉด ๋˜์ง€ ์•Š์„๊นŒ? ๊ทธ๋ž˜์„œ Mini Batch๋ผ๋Š” ๊ฐœ๋…์ด ๋“ฑ์žฅํ•œ๋‹ค. ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ ๋‹นํ•œ ๋ฐ์ดํ„ฐ ์…‹์˜ ํฌ๊ธฐ๋ฅผ ์ •ํ•˜์—ฌ ํ•ด๋‹น ์‚ฌ์ด์ฆˆ๋งˆ๋‹ค ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ์ด ์ ์ ˆํ•œ ์ˆ˜์ค€์œผ๋กœ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด ํŠน์ง•์ด๋‹ค. ์šฉ์–ด๋ฅผ ์‚ดํŽด๋ณด๋ฉด Batch Size๋ผ๋Š” ๊ฒƒ์€ ํ•™์Šต Sample์˜ ๊ฐœ์ˆ˜๋ฅผ ์˜๋ฏธํ•˜๊ณ , Epoch์€ ์ „์ฒด ๋ฐ์ดํ„ฐ ์…‹์ด ํ•œ ๋ฒˆ ํ•™์Šต๋˜์—ˆ์„ ๋•Œ๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ ์ „์ฒด ๋ฐ์ดํ„ฐ ์…‹์ด 2000๊ฐœ๋ผ๊ณ  ํ–ˆ์„ ๋•Œ์˜ Batch๊ฐ€ 500์ด๋ผ๊ณ  ํ•  ๋•Œ 4๋ฒˆ Iteration์„ ๋Œ์•˜์„ ๋•Œ 1 epoch์ด ์™„์„ฑ๋œ๋‹ค.

 

Error function์„ ์‚ดํŽด๋ณด๋ฉด ์ „์ฒด์— ๋Œ€ํ•œ ํ‰๊ท ์„ ๋‚ด๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ํ•˜๋‚˜์˜ ๋ฐ์ดํ„ฐ ์…‹์— ๋Œ€ํ•ด์„œ ์—๋Ÿฌ๋ฅผ ๊ตฌํ•˜๋ฉด ๋ฏธ๋ถ„ํ•  ๊ฒƒ์„ ๊ณ ๋ คํ•ด์„œ ์ œ๊ณฑ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ์œ„์˜ ์‹์ฒ˜๋Ÿผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. Online ํ•™์Šต ๋ฐฉ์‹์˜ ๊ฒฝ์šฐ ํ•˜๋‚˜์˜ ๋ฐ์ดํ„ฐ๋งˆ๋‹ค Weight๋ฅผ ์ตœ์‹ ํ™”ํ•˜๊ธฐ ๋•Œ๋ฌธ์— Error function์„ ํ•˜๋‚˜์˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ MSE๋ฅผ ๊ตฌํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ๋ณ€๊ฒฝ๋˜๋Š” ๊ฒƒ์ด๋ผ๊ณ  ๋ณด๋ฉด ๋œ๋‹ค.

 

Stochastic Gradient์˜ ๊ฒฝ์šฐ Weight๋ฅผ ์ตœ์‹ ํ™”ํ•  ๋•Œ mini Batch ๋‹จ์œ„๋กœ ์—…๋ฐ์ดํŠธ๋ฅผ ์ง„ํ–‰ํ•ด์•ผ ํ•˜๋ฏ€๋กœ Online Error๋ฅผ ๊ทธ๋Œ€๋กœ ๊ฐ€์ ธ์˜ค๋˜ Batch์˜ ๋ชจ๋“  Weight์— ๋Œ€ํ•ด์„œ ์ง„ํ–‰ํ•œ๋‹ค. learning Rate๋„ ์ด๋•Œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋Š”๋ฐ ์ดˆ๊ธฐ์—๋Š” ์ž‘์€ ์ƒ์ˆ˜๊ฐ’์œผ๋กœ ์‹œ์ž‘์„ ํ•˜๊ณ  ์ ์ฐจ์ ์œผ๋กœ ๋น„์œจ์„ ๋‹ฌ๋ฆฌํ•˜์—ฌ learning rate๋ฅผ ์ค„์ด๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค. ์ด๋ฅผ Annealed Learning Rate๋ผ๊ณ  ํ•œ๋‹ค.

 

Learning rate๋ฅผ ์ดˆ๊ธฐ์— ์ž‘์€ ์ƒ์ˆ˜๋กœ ํ•˜๋Š” ์ด์œ ๋Š” ์œ„์˜ ๊ทธ๋ž˜ํ”„์ฒ˜๋Ÿผ ์ดˆ๊ธฐ์— ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ตœ์ ํ™”๋ฅผ ์ง„ํ–‰ํ•  ๋•Œ fitting์œผ๋กœ jumpํ•˜๋Š” ๋น„์œจ์ด ํฌ๊ธฐ ๋•Œ๋ฌธ์— ์ดˆ๊ธฐ์— ํฌ๊ฒŒ ์ฃผ๊ณ  ์ ์  ์ค„์—ฌ์„œ ์ ‘๊ทผํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ง„ํ–‰ํ•ด์•ผ ํ•จ์„ ์•Œ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

 

์ง€๊ธˆ๊นŒ์ง€ ๋ฐฐ์šด ๊ฒƒ์€ Linear Regression์œผ๋กœ ์„ ํ˜•์ ์œผ๋กœ ๊ฒฐํ•ฉํ•œ ํ•จ์ˆ˜์— ๋Œ€ํ•ด์„œ ์ƒ๊ฐ์„ ํ–ˆ์—ˆ๋‹ค. ๋งŒ์•ฝ ์„ ํ˜•์ ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ Non-linear ํ•จ์ˆ˜์˜ Input์œผ๋กœ ๋„ฃ์„ ์ˆ˜ ์žˆ๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ ๋  ๊ฒƒ์ธ๊ฐ€? ์ง€๊ธˆ๊นŒ์ง€ ์ง„ํ–‰ํ–ˆ๋˜ ๊ฒƒ์€ Weight์™€ X ์˜ Matmul์— ๋Œ€ํ•ด์„œ๋งŒ ์‚ดํŽด๋ณด์•˜๋‹ค๋ฉด Input X๋ฅผ non-linearํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ํ•จ์ˆ˜์— ๋„ฃ์€ ๊ฒƒ๊ณผ Matmul์„ ์ง„ํ–‰ํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋งŒ์ผ ์ด๋ ‡๊ฒŒ ๋ณ€ํ˜•ํ•˜์—ฌ ํ•จ์ˆ˜ F๋ฅผ ๊ตฌํ–ˆ๋‹ค๊ณ  ํ•˜๋”๋ผ๋„ F๋Š” ์—ฌ์ „ํžˆ Weight์— ๋Œ€ํ•ด์„œ Linearํ•จ์„ ์œ ์ง€ํ•˜๊ณ  ์žˆ์Œ์„ ๊ธฐ์–ตํ•˜์ž.

 

์ด๋ฅผ ๊ทธ๋ฆผ์œผ๋กœ ์ดํ•ดํ•ด๋ณด์ž. Original Input์„ Weight์™€ ๋ฐ”๋กœ ๊ณฑํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๋น„์„ ํ˜•์„ฑ์œผ๋กœ ๋ถ€์—ฌํ•œ Feature function์„ ๋งŒ๋“ค๊ณ  Weight์™€ ๊ณฑํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์ดํ•ดํ•˜๋ฉด ๋  ๊ฒƒ์ด๋‹ค.

 

1์ฐจ์› ๋ฐ์ดํ„ฐ์— ๋งž๋Š” ๋‹คํ•ญ์‹ ๊ณก์„ ์„ ๋งŒ๋“ ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž. 3์ฐจ ๋‹คํ•ญ์‹์˜ ๊ฒฝ์šฐ 3-dim๊นŒ์ง€ ์ง„ํ–‰๋˜๋ฉฐ ๋ชจ๋ธ์€ 1์ฐจ์› ๋ฐ์ดํ„ฐ๋งŒ์„ ๋ฐ›์ง€๋งŒ ์ด ๊ฒฝ์šฐ 3์ฐจ Dimension๊นŒ์ง€ ํ™•์žฅ๋œ non linear expansion์„ ์ง„ํ–‰ํ•œ ๋ชจ๋ธ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๋‹ค๋ฅธ ๊ฒฝ์šฐ๋ฅผ ์‚ดํŽด๋ณด์ž. 2์ฐจ์› ๋ฐ์ดํ„ฐ๋ฅผ ์ž…๋ ฅ์„ ๋ฐ›๊ณ  Feature์˜ ํ‘œํ˜„์„ 5๊ฐœ๊นŒ์ง€ ํ•  ์ˆ˜ ์žˆ๋Š” Multi-dimensional ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ ๋‹ค๊ณ  ๋ณด๋ฉด ์œ„์ฒ˜๋Ÿผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

 

non linear ์„ฑ๊ฒฉ์„ ์ฃผ๋Š” ํ•จ์ˆ˜๋กœ๋Š” ์œ„์ฒ˜๋Ÿผ Polynomial, Gaussian, Sigmoid ๋ชจ๋ธ์ด ์กด์žฌํ•œ๋‹ค. 

 

๋‹ค์Œ์œผ๋กœ ์‚ดํŽด๋ณผ ๊ฒƒ์€ Regularization ๊ฐœ๋…์œผ๋กœ ์ด๋Š” ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ๋‚ฎ์ถ”๋Š” ๊ฒƒ์ด๋‹ค. Feature๋ฅผ ํ™•์žฅํ•˜๊ฒŒ ๋˜๋ฉด ํ•ญ์ƒ ๋”ฐ๋ผ์˜ค๋Š” ๋ฌธ์ œ๋Š” ๋ชจ๋ธ์ด ๋ณต์žกํ•ด์ง„๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๋ชจ๋ธ์ด ๋ณต์žกํ•  ์ˆ˜๋ก Overfitting์˜ ๊ฐ€๋Šฅ์„ฑ์ด ์ฆ๊ฐ€ํ•œ๋‹ค. ๋งŒ์•ฝ ๋ณต์žก์„ฑ์ด ์ฆ๊ฐ€ํ•˜์—ฌ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ Data์˜ ์ˆ˜๋ณด๋‹ค ๋งŽ์€ ๊ฒฝ์šฐ๊ฐ€ ์ƒ๊ธธ ์ˆ˜ ์žˆ๋‹ค. ์ด ๊ฒฝ์šฐ ์ž ์žฌ์ ์œผ๋กœ Overfitting์˜ ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธด๋‹ค. Overfitting์ด๋ž€ ๋ชจ๋ธ์ด training Data๋ฅผ ๊ณผํ•˜๊ฒŒ ํ•™์Šตํ•˜๋ ค๊ณ  ํ•˜์—ฌ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ผ๋ฐ˜์ ์œผ๋กœ ํ‘œํ˜„์ด ๋ถˆ๊ฐ€ํ•ด์ง€๋Š” ๊ฒฝ์šฐ๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ์˜ˆ์ธก์˜ ์ •ํ™•์„ฑ์€ ๋ช‡ ๊ฐœ์˜ Coefficient๋ฅผ 0์œผ๋กœ ์„ค์ •ํ•จ์œผ๋กœ์จ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค. ์•„๋งˆ ์ด๋ฅผ Drop out ๋ฐฉ์‹์ด๋ผ๊ณ  ๋ถˆ๋ฆฐ๋‹ค. ๋Œ€์•ˆ์ฑ…์œผ๋กœ Subset selection, Ridge, Lasso Regression์ด ์žˆ๋‹ค.

 

 

Ridge์™€ lasso ์ •๊ทœํ™” ์ด๋ก ์ด ์™œ ๋“ฑ์žฅํ–ˆ๋Š”์ง€๋ฅผ ์‚ดํŽด๋ณด์ž. ๋งŒ์•ฝ ๋ชจ๋ธ์ด ๋„ˆ๋ฌด ๋ณต์žกํ•ด์ ธ์„œ Overfitting์ด ๋ฐœ์ƒํ•œ๋‹ค๋ฉด, ์ด ๋ชจ๋ธ์˜ ์˜ˆ์ธก ์ •ํ™•์„ฑ์€ ๋ช‡ Input์„ ์ œ๊ฑฐํ•˜๋ฉด ์˜ฌ๋ผ๊ฐ€์ง€ ์•Š์„๊นŒ๋ผ๋Š” ์ƒ๊ฐ์—์„œ ์‹œ์ž‘ํ•œ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ๋‚ฎ์ถ”์ž๋Š” ์•„์ด๋””์–ด์—์„œ ์ฐฉ์•ˆ๋œ ๊ฒƒ์ด๋‹ค.

 

Ridge Regression์„ ๋จผ์ € ์‚ดํŽด๋ณด์ž. ์ด ๊ฒฝ์šฐ Objective ํ•จ์ˆ˜๋Š” ๊ธฐ์กด์˜ MSE์— L2-norm์„ ๋”ํ•œ ํ˜•์‹์ด ๋œ๋‹ค. ์ •๊ทœํ™” coefficient๋ฅผ L2 penalty์— ๊ณฑํ•ด์„œ ์ง„ํ–‰์ด ๋˜๊ณ  ๋žŒ๋‹ค๋ฅผ ์ž‘๊ฒŒ ๋งŒ๋“ค๋ฉด Weight๊ฐ€ ์ž‘์•„์ง„๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. Bias Term์„ ๋” ๋”ํ•ด์„œ ๋ถ„์‚ฐ์„ ์ค„์ด๋Š” ๋ฐฉ์‹์œผ๋กœ ์ •๊ทœํ™”๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค.

 

Linear Regression๊ณผ Objective function์ด ๊ฑฐ์˜ ๋™์ผํ•˜๊ณ  bias Term์ด ๋ถ™์€ ์ฐจ์ด์ ๋ฐ–์— ์—†์œผ๋ฏ€๋กœ ์‹์„ ๋ณด๋ฉด Weight์— ๋žŒ๋‹ค๋ฅผ ๋”ํ•œ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

 

Lasso ์ •๊ทœํ™”๋Š” Ridge์™€ ๋‹ค๋ฅด๊ฒŒ L1 Norm์„ Objective function์— ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

 

L1์™€ L2๋ฅผ ์‚ดํŽด๋ณด๋ฉด L1์ด weight๋ฅผ 0์œผ๋กœ ๋” ๊ธ‰ํ•˜๊ฒŒ ์ˆ˜๋ ด์‹œํ‚ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

 

Ridge์™€ Lasso์˜ ์ œ์•ฝ์กฐ๊ฑด์„ ์กฐํ•ฉํ•˜์—ฌ ๋ผ๊ทธ๋ž‘์ฃผ ์Šน์ˆ˜๋ฒ•์œผ๋กœ ๊ณ„์‚ฐ์„ ํ•˜๋ฉด ๊ฐ Constraint์™€ ์ ‘ํ•  ๋•Œ ์ตœ์†Œ์ ์ด ๋˜๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.