๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš“ Self Study/๐ŸŸ  Deep Learning Basic

Deep learning (MLP Learning, Loss Function, Back Propagation, Matrix Notation, Chain Rule)

by UKHYUN22 2021. 12. 23.
728x90
Back-propagation
 

MLP Learning
Layer ํ•˜๋‚˜๋ฅผ ๋‚˜ํƒ€๋‚ผ ๋•Œ x์˜ super script๋ฅผ ์“ฐ๊ฒ ๋‹ค๊ณ  ๊ฐ€์ •.
X0 ๋Š” input vector๊ฐ€ ๋œ๋‹ค. Label์— ํ•ด๋‹นํ•˜๋Š” ๋…ธ๋“œ๋Š” ์ „๋ถ€ 1

 

loss function์€ Desired ouput๊ณผ real output ์‚ฌ์ด์˜ ์ฐจ์ด์— ํ•ด๋‹นํ•œ๋‹ค.
์ผ๋‹จ ์‹œ์ž‘์ ์€ ๋žœ๋คํ•œ node์—์„œ ์‹œ์ž‘ํ•ด์„œ ์กฐ๊ธˆ์”ฉ gradient๋ฅผ ๋นผ์คŒ์œผ๋กœ์จ ํ•™์Šต์„ ์‹œ์ž‘ํ•œ๋‹ค.
 
Loss Function(Error Criteria)
์ตœ์ข… output Layer์—์„œ desired output ๊ฐ’์„ ๋นผ๊ณ  ์ œ๊ณฑ์„ ํ•ด์„œ C๊ฐœ์— ํ•ด๋‹นํ•˜๋Š” ๊ฒƒ ๋งŒํผ ๋‚˜๋ˆ ์ค€๋‹ค.
๊ทธ๋Ÿฌ๋ฉด Error๋ฅผ ์ฐพ์„ ์ˆ˜ ์ž‡๊ณ  Mean square๋ฅผ ํ•˜๊ฒŒ ๋˜๋Š” ๊ณผ์ •์ด ๋œ๋‹ค. 
์ตœ๊ทผ์— ๋“ค์–ด์„œ Cross entropy function์ด ๋งŽ์ด ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๋‹ค,
Softmax activation๊ณผ ์ž˜ ์“ฐ์ธ๋‹ค,
Desired output์ด ๋‚˜์˜ค๊ณ  Real Output์— log๊ฐ€ ์“ฐ์ด๊ณ  ๊ณฑํ•˜๋Š” ์‹์ด ๋œ๋‹ค.
X(n)์ด D๋ฅผ ์˜ˆ์ธกํ•˜๋Š”๋ฐ ์–ผ๋งˆ๋‚˜ ๋„์›€์ด ๋˜๋ƒ๋ฅผ ํ‘œํ˜„ํ•ด์ฃผ๋Š” ์‹
 

 

Gradient-based learning
Weight์— ๋Œ€ํ•ด ๋ฏธ๋ถ„์„ ํ•˜๊ณ  ํ˜„์žฌ weight์—์„œ ๋นผ์ฃผ๋ฉด์„œ ์ง„ํ–‰์„ ํ•˜๊ฒŒ ๋œ๋‹ค.
 
Back-Progation
ํ•™์Šต์„ ํ•  ๋•Œ gradient๋ฅผ ๊ตฌํ•˜๋Š”๋ฐ ์ด๋Š” output์— ๋Œ€ํ•ด ์ •์˜๋œ๋‹ค๋ผ๋Š” ๊ฒƒ.

 

๊ทธ๊ฒƒ์„ ํ†ตํ•ด ๊ทธ ์ด์ „๊ฒƒ์„ ๊ณ„์‚ฐํ•˜๊ฒŒ ๋˜๋Š”๋ฐ ์ด๋Ÿฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ Back Propagation์ด๋ผ๊ณ  ํ•œ๋‹ค.
 

Matrix Notation
y ๊ฐ€ weighted node์˜ Summation์— ๋Œ€ํ•œ ๊ฐ’์œผ๋กœ ํ‘œํ˜„ํ•˜๊ฒŒ ๋œ๋‹ค.
์—ฌ๊ธฐ์„  a๋ฅผ net value๋ผ๊ณ  ํ•˜๊ณ  ํ•ด๋‹น ์ž…๋ ฅ์„ ๋ฒกํ„ฐ์— ๋Œ€ํ•ด์„œ ํ‘œํ˜„ํ•˜๊ณ ์ž ํ•œ๋‹ค.

 

๋ณต์žกํ–‡๋˜ notaion์ด ๊ฐ„๋‹จํ•˜๊ฒŒ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋œ๋‹ค.
 

Chain Rule
x์—์„œ y, z๋กœ ๊ฐˆ๋•Œ ๋จผ์ € z๋ฅผ y๋กœ ๋ฏธ๋ถ„ํ•˜๊ณ  y๋ฅผ x ์— ๋Œ€ํ•ด ๋ฏธ๋ถ„ํ•œ ๊ฒƒ์„ ๊ณฑํ•ด์ฃผ๋ฉด ๋œ๋‹ค.
 

Loss๋ฅผ Output z์— ๋Œ€ํ•ด์„œ ๋ฏธ๋ถ„์„ ํ•ด๋ฒ„๋ฆฐ ๊ฒƒ์œผ๋กœ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•œ๋‹ค.
z๋ฅผ x์— ๋Œ€ํ•ด ๋ฏธ๋ถ„ํ•œ ๊ฒƒ๊ณผ z๋ฅผ y์— ๋Œ€ํ•ด ๋ฏธ๋ถ„ํ•œ ๊ฒƒ๋งŒ ์žˆ์œผ๋ฉด ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ.
gradient๋ฅผ ๋ฐ›๊ฒŒ ๋˜๊ณ  ์ž์‹ ์—๊ฒŒ ํ•„์š”ํ•œ gradient๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด key point
 
Chain Rule
๋‘ ๊ฐœ์˜ vector์˜ ํŽธ๋ฏธ๋ถ„์˜ ํ•ฉ์„ ๊ตฌํ•˜๋ฉด ๊ฐ๊ฐ์˜ ๊ฒฝ์šฐ๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.
 
์ผ๋ฐ˜ํ™”์‹œํ‚ค๋ฉด 2๊ฐœ ์ด์ƒ์ธ ๊ฒฝ์šฐ์—๋„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.
 

๋ธํƒ€์— x๋ฅผ ๋ถ™์ด๋ฉด ์–ด๋–ค ์‹์„ x์— ๋Œ€ํ•ด ๋ฏธ๋ถ„ํ•œ ๊ฐ’์ด๋‹ค๋ผ๋Š” ๋œป.
Z๋ฅผ y์— ๋Œ€ํ•ด ๋ฏธ๋ถ„ํ•˜๊ณ  Z๋ฅผ x์— ๋Œ€ํ•ด ๋ฏธ๋ถ„ํ•œ ๊ฒƒ