๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš“ Self Study/๐ŸŸ  Deep Learning Basic

Deep Learning(Regularization, Transfer learning, Internal Converiate Shift, Batch Normalization, ReLU Activation Fuction, Sparse Coding)

by UKHYUN22 2021. 12. 29.
728x90

Practical Problem and Solution


Practical Issues
Training Data๋ฅผ ๋งŽ์ด ํ•„์š”๋กœ ํ•œ๋‹ค. ์ด์— ๋Œ€ํ•œ ํ•ด๊ฒฐ์ฑ…์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŽ์ด ๋ชจ์œผ๋Š” ๊ฒƒ์ด๊ณ  ์ตœ๊ทผ ๋จธ์‹ ๋Ÿฌ๋‹์„ ํ•˜๋Š” ์‚ฌ๋žŒ๋“ค์ด ๋ฐ์ดํ„ฐ๋ฅผ ๋งŽ์ด ๋ชจ์•„๋†“์•˜๋‹ค๋Š” ๊ฒƒ.
Regularization techinque / data augmentation : ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ•ฉ์„ฑํ•ด๋‚ด๋Š” ๊ฒƒ
Unsupervised / semi-supervised / 
reinforcement learning : ์ •๋‹ต์ด ์•„๋‹Œ ํ”ผ๋“œ๋ฐฑ๋งŒ์œผ๋กœ ์ง„ํ–‰๋œ๋‹ค๋Š” ์ 
Computation ์„ ๋งŽ์ด ํ•„์š”๋กœ ํ•œ๋‹ค.

 

Regularization
Boundary๊ฐ€ ๋ณต์žกํ•˜๋ฉด training data์— ๋Œ€ํ•ด์„œ๋Š” ์ž˜ํ•˜์ง€๋งŒ ์ง€๊ธˆ๊นŒ์ง€ ๋ณด์ง€ ๋ชปํ–ˆ๋˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ ์ฒ˜๋ฆฌํ•˜๊ธฐ ํž˜๋“ค๋‹ค๋Š” ๊ฒƒ์ด์—ˆ๋‹ค. ๋ฐฉ์ •์‹์€ ์ ์€๋ฐ ๋ฏธ์ง€์ˆ˜๊ฐ€ ๋งŽ๋‹ค๋ผ๊ณ  ํ•ด์„์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ๊ทธ๋Ÿฐ  ๋ฌธ์ œ๋ฅผ ill-posed problem ์ด๋ผ๊ณ  ํ•œ๋‹ค. E(W) ์˜ ๊ฒฝ์šฐ Weight์— Constrain์„ ์ค˜์„œ ๋งŽ์€ ํ•™์Šต์„ ํ•˜๋„๋ก ํ•ด์•ผ ํ•œ๋‹ค. norm of Weight ์ฆ‰, weight์— ๋Œ€ํ•œ ์ œ์•ฝ์„ ์ฃผ๋Š” ๊ฒƒ.

 

Transfer Learning
์ „์ด ํ•™์Šต์ด๋ผ๊ณ  ํ‘œํ˜„ํ•œ๋‹ค. ํ•œ ๋ฌธ์ œ๋ฅผ ํ•™์Šตํ•˜๋Š”๋ฐ ์žˆ์–ด์„œ์˜ ์ •๋ณด๋ฅผ ๋‹ค๋ฅธ ์ชฝ์œผ๋กœ ์ ์šฉ์‹œํ‚ค๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค. ๋ฐ”๋‘‘์˜ ๊ฒฝ์šฐ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋Š” ํ…Œํฌ๋‹‰์ด ์žฅ๊ธฐ๋ฅผ ๋‘๋Š”๋ฐ ๋„์›€์ด ๋  ์ˆ˜ ์žˆ๋Š”๊ฐ€? ์— ๋Œ€ํ•œ ๋น„์œ ๋กœ ๋ง์”€ํ•˜์…จ๋‹ค. ์ž๋™์ฐจ๋ฅผ ์ธ์‹ํ•˜๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•œ ๊ฒฝ์šฐ Neural Network, ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋ฅผ ์ญ‰ ํ•™์Šตํ•œ ๋‹ค์Œ์— ์ค‘๊ฐ„๋ถ€์˜ ๊ฒฝ์šฐ๋ฅผ ์ƒˆ๋กœ์šด ๋ฌธ์ œ์— ์ ์šฉ์„ ์‹œํ‚ค๋ฉด ์„ฑ๋Šฅ์ด ์ƒ๋‹นํžˆ ์ข‹์•„์ง„๋‹ค. ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋กœ ํ’€ ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ๋ฅผ ์ž˜ ํ•™์Šต์‹œํ‚จํ›„ Classification Layout์„ ๋‚ด๊ฐ€ ํ’€ ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ๋กœ ๋ฐ”๊พผ ํ›„ ์ถ”๊ฐ€ ํ•™์Šต์„ ์ง„ํ–‰ํ•œ๋‹ค๋ฉด

 


Internal Covariate Shift
๋ฐ‘์—์„œ ์–ด๋–ค ๋ถ„ํฌ๋ฅผ ๊ฐ–๊ณ  ์žˆ๋‹ค๋ผ๋Š” ๊ฐ€์ •์œผ๋กœ ํ•™์Šต์„ ํ•˜๊ฒŒ ๋œ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ํ•™์Šต์ด ๋˜๋Š” ๋™์•ˆ ๋ฐ‘์˜ Layer๋“ค์ด ํ•™์Šต์„ ํ•˜๊ฒŒ ๋˜๊ณ  Conversion ๋œ ์ƒํƒœ์—์„œ์˜ ๋ถ„ํฌ๊ฐ€ ์„œ๋กœ ๋งž์ง€ ์•Š์•„์„œ ์œ„์ชฝ layer์˜ ํ•™์Šตํšจ๊ณผ๊ฐ€ ๋–จ์–ด์ง€๋Š” ํ˜„์ƒ์„ Intercal Convariate Shift ๋ผ๊ณ  ํ•œ๋‹ค.

 


Batch Normalization
x์˜ ํ‰๊ท ์„ ๋นผ๊ณ  ํ‘œ์ค€ํŽธ์ฐจ๋กœ ๋‚˜๋ˆ„๊ฒŒ ๋˜๋Š” ์ •๊ทœํ™” ๊ณผ์ •์„ Batch Normalization์ด๋ผ๊ณ  ํ•œ๋‹ค. ๋ฐ‘ Layer์˜ Batch๋ฅผ ํ‘œ์ค€ํ™” ์‹œ์ผœ์ฃผ๋Š” ๊ณผ์ •์ด ๋œ๋‹ค.

 


Batch Normalization
์›๋ž˜ Internal Covariate Shift๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด์„œ ๋‚˜์˜จ ๊ฐœ๋…์ด์ง€๋งŒ ๋‹ค๋ฅธ ๊ฒƒ์— ํšจ๊ณผ๊ฐ€ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด ๋ฐํ˜€์ก‹๋‹ค.

 


ReLU Activation Funciton
์ข‹์€์ 
1. ๋น ๋ฅด๋‹ค. Exponension์ด ๋“ค์–ด๊ฐ€์ง€ ์•Š๊ณ  maximun ์—ฐ์‚ฐ ํ•˜๋‚˜์ด๋‹ค.
2. ์—ฌ๋Ÿฌ ์ •๋ณด๊ฐ€ ํ•˜๋‚˜์˜ ๋…ธ๋“œ์— merge๋˜์–ด ํŠน์ง•์ด ์„ž์ด๊ฒŒ ๋œ๋‹ค. (Hidden Layer)
Non Zero์˜ ๊ฐ’์„ ๊ฐ–๋Š” ๋…ธ๋“œ๊ฐ€ ์ ๊ฒŒ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค.
3. ๋„ํ•จ์ˆ˜๊ฐ€ 0์— ๊ฐ€๊นŒ์šด ๊ฐ’์„ ๊ฐ€์ง€์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ์˜ํ–ฅ์ด ์ ๊ฒŒ ๋ฐœ์ƒํ•œ๋‹ค. 
์•ˆ์ข‹์€ ์ 
1. Negativeํ•œ ์ ์— ๋Œ€ํ•ด์„œ๋Š” ํ•™์Šต์ด ์ „ํ˜€ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š๋Š”๋‹ค.
2. Positive ๋ฐฉํ–ฅ์— ๋Œ€ํ•ด์„œ Boundary๊ฐ€ ์—†๋‹ค. 
์ด๋ ‡๊ฒŒ ๋˜๋ฉด Deep Network์™€ RNN์—์„œ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค. ์ˆ˜ํ•™์ ์œผ๋กœ Overflow๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค.

 


Sparse Coding
Dimenstion ์ž์ฒด๋Š” ํด ์ˆ˜ ์žˆ์ง€๋งŒ ์ž‘์€ Neural ๋งŒ์„ ์žก์•„๋‚ด์„œ ๋…ธ์ด์ง€๋ฅผ ์—†์• ์ค„ ์ˆ˜ ์žˆ๋‹ค.