๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš“ Self Study/๐ŸŸ  Deep Learning Basic

Deep Learning(ImageNet, ProGAN, Vanishing Gradient Problem)

by UKHYUN22 2021. 12. 29.
728x90

Deep Learning


ImageNet Dataset
์˜์ƒ์ธ์‹ ์„ฑ๋Šฅ, Image-net์ด๋ผ๋Š” ๋ฐ์ดํ„ฐ Set์ด ์žˆ๋‹ค. 

 

ILSVRC
2012๋…„ ๋”ฅ๋Ÿฌ๋‹์ด ์ ์šฉ๋˜๊ณ  Error Rate๊ฐ€ ํ›จ์”ฌ ์ค„์—ˆ๋‹ค.
์‚ฌ๋žŒ์˜ Error rate๋Š” 5ํ”„๋กœ๋ผ๊ณ  ๋ณด๋ฉด ๋œ๋‹ค.

 


Instance Segmentation
Object๊ฐ€ ์–ด๋””์žˆ๋Š”์ง€ ์ฐพ์•„๋‚ด๊ณ  Pixel ๋‹จ์œ„๋กœ ์‹ค๋ฃจ์—ฃ์„ ๋งŒ๋“ค์–ด์ฃผ๊ฒŒ ๋œ๋‹ค.

 


Image Synthesis: ProGAN
Neural Net์ด ๋งŒ๋“ค์–ด๋‚ธ ์‚ฌ๋žŒ๋“ค ์–ผ๊ตด

 


Deep Learning
Layer๊ฐ€ ๊ต‰์žฅํžˆ ๋งŽ๋‹ค. ์ˆ˜์‹ญ๊ฐœ์—์„œ ์ฒœ ๊ฐœ๊นŒ์ง€ ์‚ฌ์šฉ์„ ํ•œ๋‹ค. ์™œ Layer๊ฐ€ ๋งŽ์œผ๋ฉด ์ข‹์€๊ฐ€? ์ž…๋ ฅ ์ •๋ณด๋ฅผ Merge ํ•˜๊ฒŒ ๋˜๋Š”๋ฐ ๋ฐ‘์— ์žˆ๋Š” Layer๋ณด๋‹ค ์œ„์˜ ๊ฒƒ์ด ์ข€ ๋” High Level์ด ๋œ๋‹ค.

 


Why Deep Learning
High-Level feature 

 


Challenges in Deep Learning
Layer๊ฐ€ ๋งŽ์•„์ง€๋ฉด Back Propation์ด ์ž‘๋™์„ ํ•˜์ง€ ์•Š๋Š”๋‹ค. Vanishing gradient problem ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค. 

 

Vanishing Gradient Problem
๋’ค์ชฝ์œผ๋กœ ๊ฐˆ ์ˆ˜๋ก Gradient๋กœ ๊ฐˆ ์ˆ˜๋ก ํฌ๋ฏธํ•ด์ง„๋‹ค๋Š” ๊ฒƒ. ์ดˆ๋ฐ˜์—๋Š” ํ•™์Šต์ด ์ž˜ ์ด๋ฃจ์–ด์ง€๋‚˜ ๋’ค๋กœ ๊ฐˆ ์ˆ˜๋ก ํ•™์Šต์ด ๋˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

 


Vanishing Gradient Problem
i: ๋ฐ‘์˜ Layer j: ์œ„์˜ Layer
ํ•ด๋‹น ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ์„ ๋•Œ ์•„๋ž˜์˜ Layer๋ฅผ ๊ตฌํ•˜๋ ค๊ณ  ํ•œ๋‹ค. ์ „ํ†ต์ ์œผ๋กœ Neural Net์€ Sigmoid๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. ํ•˜์ง€๋งŒ 1๊ณผ -1 ์ฃผ๋ณ€์„ ์ƒ๊ฐํ•ด๋ณด์ž ๊ธฐ์šธ๊ธฐ๊ฐ€ ์™„๋งŒํ•ด์ง„๋‹ค. ์–ด๋–ค ๊ฐ’์˜ 0์— ๊ฐ€๊นŒ์šด ๊ฐ’์ด ๊ณ„์†ํ•ด์„œ ๊ณฑํ•ด์ง€๋ฉด 0์— ๊ฐ€๊นŒ์›Œ ์ง„๋‹ค. (Saturated Regime ์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค)
๋‘ ๋ฒˆ์งธ๋กœ Weighted Sum์ด๋ผ๋Š” ํ˜•ํƒœ๋กœ merge๊ฐ€ ๋˜๋Š” ๊ณผ์ •์„ ๊ฑฐ์นœ๋‹ค. ๋”ฐ๋กœ๋”ฐ๋กœ ๋ณด๋ฉด ์„ ๋ช…ํ•œ ์ƒ‰์„ ๊ฐ–๊ณ  ์ž‡๋Š” ๊ฒƒ์ด
Merge๋ฅผ ํ•˜๊ฒŒ ๋˜๋ฉด ๊ทน๋‹จ์ ์ธ ๊ฐ’์„ ๊ฐ€์ง€๊ณ  ์žˆ๋˜ ๊ฐ’์˜ ํ‰๊ท  ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ๋˜๋ฏ€๋กœ ๊ฐ๊ฐ์˜ ๊ณ ์œ ํ•œ ํŠน์ง• ๊ฐ’์ด ์‚ฌ๋ผ์ง€๋Š” ํŠน์ง•์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

 


Local Minima, Saddle Point, Plateau
Error๊ฐ’์ด ๋†’์€๋ฐ ๊ธฐ์šธ๊ธฐ๊ฐ€ ๊ฑฐ์˜ ์—†๋Š” ๊ฒฝ์šฐ ํ•™์Šต์ด ์ž˜ ์•ˆ๋˜๋Š” Case๊ฐ€ ์ƒ๊ธด๋‹ค.
Saddle Point
: ์–ด๋–ค ๋ถ€๋ถ„์—์„œ ๊ฐ’์ด ์ตœ๋Œ€๊ฐ€ ๋˜๊ณ  ๋‹ค๋ฅธ ๋ถ€๋ถ„์—์„œ๋Š” ์ตœ์†Œ๊ฐ€ ๋˜๋Š” ๊ฒฝ์šฐ.

 

Overfitting
ํ•ด๊ฒฐ์ฑ…: ๋ฐ์ดํ„ฐ๋ฅผ ๋งŽ์ด ๋ชจ์œผ๊ณ  Model์„ ๋‹จ์ˆœํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด๋‹ค.

 


Deep Learning Approaches
์ดˆ๊ธฐ์—๋Š” Pre-training ๋ชจ๋ธ์ด ์‚ฌ์šฉ๋์—ˆ๋‹ค. Network ์ž์ฒด๊ฐ€ Vanishing Gradient Problem์„ ์ตœ์†Œํ™” ํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ๋‹ค. -> Convolutional Nearal Network๋‚˜ Gated Units๊ฐ€ ์žˆ๋Š” ๋ชจ๋ธ์ด ๊ทธ์— ํ•ด๋‹นํ•œ๋‹ค. ReLU Function์„ ์‚ฌ์šฉํ•˜๋ฉด 0 ์•„๋‹ˆ๋ฉด 1์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ทนํ•œ๊ฐ’ ์ฃผ๋ณ€์˜ ๊ธฐ์šธ๊ธฐ๋„ 1์ด ๋‚˜์˜ค๊ธฐ ๋•Œ๋ฌธ์— ์˜ํ–ฅ์ด ์ ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. 
Skip connection : Nueral์—์„œ ๊ต‰์žฅํžˆ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ–ˆ๋‹ค. Batch Normalization / Xavier Initialization