๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš— Major Study (Bachelor)/๐ŸŸฅ Machine Learning

Introduction to Linear Regression. Perspective of SLE(System of Linear Equation) and Gradient Descent

by UKHYUN22 2022. 11. 2.
728x90

Supervised Learning์€ label์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ํ•™์Šต์„ ์˜๋ฏธํ•œ๋‹ค. Unsupervised Learning์˜ ๊ฐ€์žฅ ํฐ ๋‘ ๊ฐ€์ง€ Task๋Š” Classification๊ณผ Density Estimation์œผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” ๋ถ„ํฌ์— ๋Œ€ํ•œ ๊ฐ€์ •์„ ํ•˜๋Š๋ƒ ์•ˆํ•˜๋Š๋ƒ์— ๋”ฐ๋ผ์„œ๋„ ์„ธ๋ถ„ํ™”๋˜์–ด ๋‚˜๋‰œ๋‹ค. ๋ฐ˜๋ฉด ์ด์˜ ๊ฒฝ์šฐ ๋ผ๋ฒจ๋ง์ด ์กด์žฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ํ•ด์„ํ•˜๊ณ  ๋ถ„๋ฅ˜ํ•˜๋Š” ์ง€์— ๋Œ€ํ•ด์„œ๋ฅผ ๋‹ค๋ฃฌ๋‹ค๊ณ  ์ดํ•ดํ•˜๋ฉด ๋œ๋‹ค.

 

 

Supervised Learning์˜ ๊ฒฝ์šฐ label์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šต์„ ํ•˜๊ณ  ์ตœ์ข… ๋ชฉํ‘œ๋Š” ๋ฐ์ดํ„ฐ X์—์„œ Y๋กœ ๋งตํ•‘ํ•  ์ˆ˜ ์žˆ๋Š” ํ•จ์ˆ˜ F๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. ์ด ์—ญ์‹œ ๋ชจ๋ธ๋ง์— ํ•ด๋‹นํ•œ๋‹ค๊ณ  ๋ณด๋ฉด ๋œ๋‹ค. ๋‘ ๊ฐ€์ง€ ํฐ Task์— ๋Œ€ํ•ด์„œ๋Š” Regression์˜ ๊ฒฝ์šฐ ์—ฐ์†์ ์ธ ๋ถ„ํฌ์— ๋Œ€ํ•ด์„œ ๋‹ค๋ฃจ๊ณ  Classification์€ ์ด์‚ฐ์ ์ธ ๋ถ„ํฌ์— ๋Œ€ํ•ด์„œ ๋‹ค๋ฃฌ๋‹ค๋Š” ์ฐจ์ด์ ์ด ์žˆ๋‹ค.

 

 Notation์€ ์œ„์˜ ์‚ฌ์ง„๊ณผ ๊ฐ™๋‹ค. X๋Š” Input vector์ด๊ณ  (n)์ด ํฌํ•จ๋˜๋ฉด N๋ฒˆ์งธ Instance์— ํ•ด๋‹นํ•œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  j๊ฐ€ ๋ถ™์œผ๋ฉด j๋ฒˆ์งธ column์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋œปํ•œ๋‹ค. Output  ๋ณ€์ˆ˜์— ๋Œ€ํ•ด์„œ๋„ ๋™์ผํ•˜๊ฒŒ ์ ์šฉ์ด ๋˜๊ณ  D๋Š” Dataset์„ ์˜๋ฏธํ•œ๋‹ค.

 

Regression์„ ์‚ดํŽด๋ณด์ž. ์˜๋ฏธ๋งŒ์„ ๋ณธ๋‹ค๋ฉด ํšŒ๊ธฐ๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์ž˜ ์™€ ๋‹ฟ์ง€ ์•Š์„ ๊ฒƒ์ด๋‹ค. ๊ทธ๋ƒฅ ํ•ด๋‹น ๋ถ„ํฌ๋ฅผ ์ž˜ ํ‘œํ˜„ํ•˜๋Š” ์„  ํ•˜๋‚˜๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์ด๋ผ๊ณ  ์ดํ•ดํ•˜์ž. X๋ผ๋Š” ๋ฐ์ดํ„ฐ๋Š” ๋…๋ฆฝ์ ์ธ ๋ณ€์ˆ˜์ด๊ณ  Y๋Š” ์ข…์†์ ์ธ ๋ณ€์ˆ˜์— ํ•ด๋‹นํ•œ๋‹ค. ์ฆ‰, X์— ๋”ฐ๋ผ Y์˜ ๊ฐ’์ด ๋‹ฌ๋ผ์ง€๋Š” ํ•จ์ˆ˜์— ํ•ด๋‹นํ•œ๋‹ค๊ณ  ๋ณด๋ฉด๋œ๋‹ค. ์ธ๊ณผ๊ด€๊ณ„๋ผ๊ณ  ์ดํ•ดํ•˜์ž

 

Regression์€ ๋‹ค๋ฅธ ๋ง๋กœ ํ•˜๋ฉด X์™€ Y์˜ ์ธ๊ณผ๊ด€๊ณ„๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. X์—์„œ Y๋กœ ํ–ฅํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค.

 

 

๊ทธ๋ ‡๋‹ค๋ฉด ํ•ด๋‹น ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ๋งŒ์กฑํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ์–ด๋–ป๊ฒŒ ์ฐพ์„ ๊ฒƒ์ธ๊ฐ€? ๋งŒ์•ฝ์— ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ผ์„œ ๊ทธ๋ ธ๋”๋‹ˆ N์ฐจ ํ•จ์ˆ˜๋กœ ํ‘œํ˜„ํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ ํ•จ์ˆ˜๋ฅผ ์ž˜ ์ฐพ์•˜๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์„๊นŒ? M์„ M์ฐจ ํ•จ์ˆ˜๋ผ๊ณ  ํ•  ๋•Œ M์˜ ํฌ๊ธฐ์— ๋”ฐ๋ฅธ ํ•จ์ˆ˜์˜ ๊ฐœํ˜•์„ ์‚ดํŽด๋ณด์ž. M = 9 ์ธ ๊ฒฝ์šฐ ์ž˜ ํ‘œํ˜„ํ–ˆ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์„๊นŒ? ์ด๊ณณ์—์„œ Overfit์˜ ๊ฐœ๋…๊ณผ Underfit์˜ ๊ฐœ๋…์ด ๋“ฑ์žฅํ•œ๋‹ค.

 

Linear Regression์€ X์—์„œ Y๋กœ ๊ฐ€๋Š” ํ•จ์ˆ˜๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค๊ณ  ํ–ˆ๋‹ค. ํ•จ์ˆ˜ F(x)๋ฅผ ์™œ ์ €๋ ‡๊ฒŒ ํ‘œํ˜„ํ–ˆ์„ ์ง€ ์ƒ๊ฐ์„ ํ•ด๋ณด์ž. W0๋ฅผ ์ œ์™ธํ•œ ์˜ค๋ฅธ์ชฝ์˜ ์‹์œผ๋กœ๋Š” ์›์ ์„ ์ง€๋‚˜๋Š” ์ง์„ ์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ณ  ๊ฐ๊ฐ์˜ W๋Š” Coefficient๋ผ๊ณ  ํ•œ๋‹ค. ์ด W๋“ค์ด weight์— ํ•ด๋‹นํ•˜๋ฉฐ W์˜ ๋น„์œจ์— ๋”ฐ๋ผ์„œ ํ•จ์ˆ˜์˜ ๊ฐœํ˜•์ด ๋‹ฌ๋ผ์ง€๊ฒŒ ๋œ๋‹ค. ์ฆ‰, ๋ชจ๋ธ์ด ๋ณ€ํ•œ๋‹ค๋Š” ์–˜๊ธฐ๋Š” Weight๊ฐ€ ๋ชจ๋ธ์— ํ•ด๋‹นํ•œ๋‹ค๋Š” ๊ฒƒ๊ณผ ๊ฑฐ์˜ ์œ ์‚ฌํ•˜๋‹ค๊ณ  ๋ณด๋ฉด ๋œ๋‹ค. W0๋Š” Y ์ ˆํŽธ์— ํ•ด๋‹นํ•˜๋ฉฐ Constant, Bias term, Intercept๋ผ๋Š” ์šฉ์–ด๋กœ ๋ถˆ๋ฆฐ๋‹ค. Weight vector๋Š” ๊ฐ๊ฐ์˜ Weight๋ฅผ ํ•˜๋‚˜์˜ Column์œผ๋กœ ์Œ“์€ Matrix์— ํ•ด๋‹นํ•œ๋‹ค๊ณ  ๋ณด๋ฉด ๋˜๊ณ  ์ด๋ฅผ parameter๋ผ๊ณ  ํ•œ๋‹ค.

 

์ด๋ ‡๊ฒŒ ํ•˜๋‚˜ ํ•˜๋‚˜์˜ ์‹ ๊ฒฝ๋ง๋“ค์„ ๊นŠ๊ฒŒ ์Œ“์•„์„œ ํ•™์Šต์„ ํ•˜๋Š” ๊ฒƒ์„ Deep learning์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. Roughํ•˜๊ฒŒ ์ดํ•ดํ•˜์ž๋ฉด ๊ฐ๊ฐ์˜ ์‹ ๊ฒฝ๋ง ์†์—์„œ Label๋กœ ํ–ฅํ•˜๋„๋ก ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด์•ผ ํ•˜๋Š”๋ฐ, ๊ทธ ๋ชจ๋ธ์€ ์ˆ˜ ๋งŽ์€ Weight๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ๊ณ , ํ•ด๋‹น Weight๋ฅผ ์กฐ์ •ํ•˜์—ฌ ๋” ์ข‹์€ ํ•จ์ˆ˜, ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๊ณผ์ •์ด๋ผ๊ณ  ๋ณด๋ฉด ์ข‹๋‹ค.

 

Linear Regression์˜ ์˜ˆ์‹œ๋กœ 1์ฐจ์› ํ•จ์ˆ˜๋ฅผ ์‚ดํŽด๋ณด์ž. y = ax + b๋ผ๋Š” ํ•จ์ˆ˜์˜ ํ‹€์ด ์žˆ์„ ๋•Œ ์šฐ๋ฆฌ๋Š” ์ ํ•ฉํ•œ a์™€ b๋ฅผ ์ฐพ์œผ๋ฉด ๋ชจ๋ธ์ธ ํ•จ์ˆ˜๋ฅผ ์ฐพ๊ฒŒ ๋˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ฐ๊ฐ์˜ a์™€ b๊ฐ€ Weight์— ํ•ด๋‹นํ•œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

Dimension์ด ๋†’์•„์งˆ ๋•Œ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๊ฐ๊ฐ์˜ Input์€ X1, X2, Y์— ํ•ด๋‹นํ•˜๊ณ  a1, a2, b๋Š” Weight์— ํ•ด๋‹นํ•œ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ ํ•ฉํ•œ a1, a2, b๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์„ ๊ณ„์† ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

 

 

Linear Regression์ด Input Data๋ฅผ ๋ฐ›๊ณ  ํ•ด๋‹นํ•˜๋Š”  Label์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋Š” Weight๋ฅผ ์ฐพ๋Š” ๊ณผ์ •, Model, Function์„ ๋งŒ๋“œ๋Š” ๊ณผ์ •์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ ํ•™์Šต์ด ์ง„ํ–‰๋˜๋Š”์ง€ ๊ถ๊ธˆํ•˜์ง€ ์•Š๋Š”๊ฐ€? ์šฐ์„  Data๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ๋ชจ๋ธ์„ ์„ ์ •ํ•ด์•ผ ํ•œ๋‹ค. ์ด๋•Œ ๋ชจ๋ธ์ด๋ผ ํ•จ์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ํ•จ์ˆ˜๋ฅผ ์„ ์ •ํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด 1์ฐจํ•จ์ˆ˜๋ฅผ ์„ ํƒํ–ˆ๋‹ค๊ณ  ํ•˜์ž. ๊ทธ๋ ‡๋‹ค๋ฉด ๊ทธ ๋‹ค์Œ์— Objective function์„ ์ž‘์„ฑํ•ด์•ผ ํ•œ๋‹ค. ์ด๊ฒƒ์„ ํ•˜๋Š” ๋ชฉ์ ์— ๊ด€ํ•œ ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•ด์•ผ ํ•˜๋Š”๋ฐ, ์ด๋Š” ์˜ค์ฐจ๊ฐ€ ๋œ๋‹ค. ์™œ ์˜ค์ฐจ์ธ๊ฐ€? ์„ ์ •ํ•œ ๋ชจ๋ธ์ธ 1์ฐจํ•จ์ˆ˜๊ฐ€ ์ถœ๋ ฅํ•˜๋Š” Output ๊ณผ label์˜ ์ฐจ์ด๋ฅผ ๊ณ„์†ํ•ด์„œ ์ค„์—ฌ๋‚˜๊ฐ€์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๋•Œ Squared Error๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. Error(D,a,b)๋ผ๊ณ  ํ•˜๋Š”๋ฐ D๋Š” Data์— ํ•ด๋‹นํ•˜๊ณ  a์™€ b๋Š” Model์˜ ํŒŒ๋ผ๋ฏธํ„ฐ์ด์ž Weight๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ์˜ค์ฐจ์—๋Š” ์Œ์˜ ๊ฐ’์ด ์žˆ์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ œ๊ณฑ์„ ํ•ด์„œ ์˜ค์ฐจ์˜ ํฌ๊ธฐ๋งŒ์„ ๊ณ ๋ คํ•˜๋Š” ์‹์ด ๋œ๋‹ค. ์ดํ›„ ํ•™์Šต์ด ์ง„ํ–‰๋˜๋Š”๋ฐ ์ด๋•Œ๋Š” ์—๋Ÿฌ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ์ด์ž Weight์ธ a์™€ b๋ฅผ ์„ ํƒํ•˜๋Š” ๊ณผ์ •์œผ๋กœ ํ•™์Šต์ด ์ง„ํ–‰๋œ๋‹ค.

 

 

 

 

Linear Regrsesion์˜ ํ•จ์ˆ˜์‹์„ ์‚ดํŽด๋ณด์ž. ๊ฐ๊ฐ์˜ Weight๊ฐ€ Coefficient๋กœ ๊ฐ๊ฐ์˜ input data์™€ ๊ณฑํ•ด์ง€๊ฒŒ ๋œ๋‹ค. ์ด๋ฅผ Matrix์˜ ๊ด€์ ์œผ๋กœ ์ ‘๊ทผ์„ ํ•ด๋ณด์ž๋ฉด ๊ฐ๊ฐ์˜ Row์™€ Column์ด ๊ณฑํ•ด์ง€๋Š” Matrix Multiplaction์— ๋ถˆ๊ณผํ•˜๋‹ค. ์ฆ‰ ํ‘œํ˜„์„ ํ•˜๋ฉด w^tx ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋‹ค์‹œ ์ •์˜๋ฅผ ํ•˜์ž๋ฉด Linear Regression์ด๋ž€ Input๊ณผ Weight ์‚ฌ์ด์˜ Inner Product์— ํ•ด๋‹นํ•œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

Error Function์€ MSE๋กœ ํ‘œํ˜„์ด ๋˜๋Š”๋ฐ label์˜ ๊ฐ’๊ณผ ๋ชจ๋ธ์ด ์ถœ๋ ฅํ•˜๋Š” Output ์˜ ์ฐจ์ด๋ฅผ ์ œ๊ณฑ์„ ํ•œ๋‹ค. (์ œ๊ณฑ์€ ํŽธ์ฐจ์˜ ์Œ์ˆ˜๋ฅผ ์ œ๊ฑฐํ•˜๊ธฐ ์œ„ํ•จ)  ๊ทธ๋ฆฌ๊ณ  N๊ฐœ๋กœ ๋‚˜๋ˆ„์–ด Mean ๊ฐ’์œผ๋กœ ํ‘œํ˜„์„ ํ•œ๋‹ค. Learning์€ ๊ทธ๋Ÿผ ์–ด๋–ค ๊ฒƒ์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ธ๊ฐ€?  MSE์˜ ์ตœ์†Ÿ๊ฐ’์„ ๊ฐ€์ง€๋Š” Weight๋ฅผ ํ•™์Šตํ•œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

Error๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” Weight์— ๋Œ€ํ•œ ํ‘œํ˜„์„ ์‚ดํŽด๋ณด์ž. Model์˜ ํ•จ์ˆ˜๋Š” Input Data์™€ Weight์˜ Inner Product๋ผ๊ณ  ํ–ˆ์œผ๋ฏ€๋กœ ์œ„์˜ ์‹์ฒ˜๋Ÿผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ดํ›„ ์ตœ์†Ÿ๊ฐ’์„ ๊ฐ€์ง€๋Š” ์ง€์ ์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” W์— ๋Œ€ํ•œ ๋ฏธ๋ถ„์„ ๊ตฌํ•˜์—ฌ 0์ด ๋˜๋Š” ์ง€์ ์„ ์„ ํƒํ•ด์•ผ ํ•œ๋‹ค. ๊ทธ๋ ‡๊ฒŒ ๊ตฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด W์— ๋Œ€ํ•œ ๋ฐฉ์ •์‹์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

Optimization์ด๋ผ๋Š” ๋œป์€ ๋ฌด์—‡์ผ๊นŒ? ์ตœ์ ํ™”๋ผ๋Š” ๋œป์ด๊ณ  ํ•™์Šต์— ๊ด€ํ•œ ๊ฒƒ์ž„์„ ๋Š๋‚„ ์ˆ˜ ์žˆ๊ธฐ๋ฅผ ๋ฐ”๋ž€๋‹ค. Objective function์ด Minimize๋˜๋Š” ์ง€์ ์„ ์œ„์—์„œ ๊ตฌํ–ˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด W์— ๋Œ€ํ•ด์„œ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•œ๋‹ค. ์ด๋ฅผ W์— ๋Œ€ํ•ด์„œ ๋‚˜์—ด์„ ํ•˜๋ฉด Aw = b๋ผ๋Š” ์ผ๋ฐ˜์ ์ธ Matrix Multiplication์— ํ•ด๋‹นํ•˜๋Š” ์ˆ˜์‹์ด ์ •๋ฆฌ๋œ๋‹ค.

 

System of Linear Equation์„ ํ‘ธ๋Š” ๊ฒƒ์œผ๋กœ ๋งˆ๋ฌด๋ฆฌํ•  ์ˆ˜ ์žˆ์„ ๋“ฏํ•˜๋‹ค. A๋Š” ๋ฌด์—‡์ธ๊ฐ€. Input Data์ธ XtX๊ฐ€ ๊ทธ์— ํ•ด๋‹นํ•˜๊ณ  ์—ญํ•จ์ˆ˜๋ฅผ ์ทจํ•˜๋ฉด ๋งˆ์ง€๋ง‰ ์ˆ˜์‹์ฒ˜๋Ÿผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๊ฒƒ์ด ์„ฑ๋ฆฝํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” A๋ผ๋Š” ํ–‰๋ ฌ์ด ํ•ญ์ƒ Invertibleํ•ด์•ผ ํ•˜๋Š”๋ฐ ํ•ญ์ƒ ๊ทธ๋Ÿฌ์ง€ ์•Š๋‹ค๋Š” ๊ฒƒ์„ ๊ธฐ์–ตํ•ด์•ผ ํ•œ๋‹ค.

 

ํ™•๋ฅ ์ ์ธ ๊ด€์ ์œผ๋กœ ์ ‘๊ทผ์„ ํ•ด๋ณด์ž. Gaussian Distribution์„ ๋”ฐ๋ฅด๊ณ  Mean๊ณผ Variance๋Š” ๊ฐ๊ฐ ์œ„์ฒ˜๋Ÿผ ์ž‘์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. Log likelihood ๋ฅผ ๊ตฌํ•˜๋ฉด MSE์˜ ํ˜•ํƒœ๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ๊ณ  Log-likelihood๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ง€์ ์„ ๊ฐ™๊ธฐ ์œ„ํ•ด W์— ๋Œ€ํ•ด์„œ Partial Derivative๋ฅผ ๊ตฌํ•ด๋ณด๋ฉด SLE๋ฅผ ํ’€์—ˆ์„ ๋•Œ์˜ ์‹์„ ๋™์ผํ•˜๊ฒŒ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ W์— ๋Œ€ํ•ด ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” X^TX๊ฐ€ invertible ํ•˜๋‹ค๋Š” ์กฐ๊ฑด์ด ํ•„์š”ํ•˜๊ธฐ์— ์ด์— ๋Œ€์•ˆ์ฑ…์œผ๋กœ Gradient Descent ๋ฐฉ์‹์ด ๋“ฑ์žฅํ•œ๋‹ค.

 

 

๋งŒ์ผ X๊ฐ€ full rank๋ผ๋ฉด A๋ผ๋Š” Matrix๋Š” Invertibleํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค์Œ๊ณผ ๊ฐ™์€ Notation์œผ๋กœ ์ž‘์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•˜๋‚˜์˜ ๋ช…์ œ๊ฐ€ ์กด์žฌํ•˜๋Š”๋ฐ, ๋งŒ์ผ X๊ฐ€ full rank๋ผ๋ฉด Squrae Objective๋Š” ํ•˜๋‚˜์˜ Global Minimun ๊ฐ’์„ ๊ฐ€์ง„๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด์˜ ์ฆ๋ช…์€ ์œ„์—์„œ ๋ณด์ด๋Š” ๋ฐ”์™€ ๊ฐ™๋‹ค.

 

Optimization์„ Gradient Descent์˜ ๊ด€์ ์—์„œ ํ•ด์„์„ ํ•ด๋ณด์ž. ์—๋Ÿฌ๋Š” ๋ผ๋ฒจ๊ณผ ๋ชจ๋ธํ•จ์ˆ˜์˜ ์ถœ๋ ฅ์˜ ์ฐจ์ด์˜ ์ œ๊ณฑ์„ ๊ฐœ์ˆ˜๋กœ ๋‚˜๋ˆˆ Mean Squared Error (MSE)๋ผ๊ณ  ํ–ˆ๋‹ค. ์œ„์—์„œ๋Š” System of Linear Equation (MLE)๋ฅผ ํ‘ธ๋Š” ๊ด€์ ์œผ๋กœ ์ ‘๊ทผ์„ ํ–ˆ๋‹ค๋ฉด ์ด๋ฅผ Gradient Descent ๊ด€์ ์„ ํ•œ ๋ฒˆ ๋ฐ”๊ฟ”๋ณด์ž๋Š” ๊ฒƒ. ์•„์ด๋””์–ด๋Š” ๊ฐ„๋‹จํ•˜๋‹ค. Error๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ Weight๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋•Œ learning Rate๋ผ๋Š” ๊ฐœ๋…์ด ๋“ฑ์žฅํ•˜๋Š”๋ฐ Gradient๊ฐ€ ๋ณ€ํ™”ํ•  ๋•Œ๋งˆ๋‹ค ์–ผ๋งˆ๋งŒํผ์˜ ๋น„์œจ๋กœ ์ˆ˜์ •ํ•ด์„œ ๋‚˜๊ฐˆ ๊ฒƒ์ธ์ง€์— ๋Œ€ํ•œ ์ˆ˜์น˜๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

 

Updateํ•˜๋Š” ๋ฐฉ์‹์€ ๊ธฐ์กด์˜ Weight์— ๋‹ค๊ฐ€ MSE๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” Weight์˜ ๋ฐฉํ–ฅ๊ณผ ๋ฐ˜๋Œ€๋ฐฉํ–ฅ์œผ๋กœ learning rate๋ฅผ ์ฃผ๋Š” ๋ฐฉ์‹์ด๋‹ค. ์ด๋•Œ์˜ ๋„ํ•จ์ˆ˜๋Š” MSE๋ฅผ W์— ๋Œ€ํ•ด์„œ ๋ฏธ๋ถ„ํ•œ ์‹์ด ๋œ๋‹ค.