๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿš“ Self Study/๐ŸŸก Deep Learning Paper

YOLO9000 ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

by UKHYUN22 2022. 10. 6.
728x90

 

๋Œ€๋ถ€๋ถ„์˜ Object Detection ๋ฐฉ๋ฒ•์ด ์—ฌ์ „ํžˆ ์ž‘์€ ๋ฌผ์ฒด๋ฅผ ๊ฐ์ง€ํ•˜๋Š”๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๊ณ  ์žˆ๋‹ค. ์ตœ๊ทผ Object Detection์˜ Dataset์ด ๋‹ค๋ฅธ Task ๋ชจ๋ธ์˜ Dataset๊ณผ ๋‹ค๋ฅด๊ฒŒ ์ œํ•œ์ ์ด๋‹ค. ๋ฌผ์ฒด์˜ level์— ๋”ฐ๋ผ ํฌ๊ธฐ๋ฅผ Detect ํ•˜๊ณ  ์‹ถ์ง€๋งŒ Classification์ด๋‚˜ Tagging์— ๋น„ํ•ด์„œ ๋ผ๋ฒจ๋ง์„ ํ•  ๋•Œ ๋” ๋งŽ์€ ์—ฐ์‚ฐ์ด ์š”๊ตฌ๋œ๋‹ค.

 

๊ทธ๋ž˜์„œ ๊ธฐ์กด์— ๊ฐ€์ง€๊ณ  ์žˆ๋˜ Classification Data๋ฅผ ์‚ฌ์šฉํ•ด์„œ Detection ์ฒด๊ณ„๋กœ ๋ฒ”์œ„๋ฅผ ํ™•์žฅํ•ด์„œ ์‚ฌ์šฉํ•œ๋‹ค.

 

Joint ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉํ•ด์„œ ๋ฌผ์ฒด์˜ ์œ„์น˜๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ํ•™์Šตํ•จ๊ณผ ๋™์‹œ์— ํ•ด๋‹น ๋ฌผ์ฒด์˜ Classification ๋˜ํ•œ ์ง„ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

์‹ค์‹œ๊ฐ„ Object Detector๋กœ 9000๊ฐœ์˜ ๋‹ค๋ฅธ ๋ฌผ์ฒด๋ฅผ ๊ฐ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ธฐ์กด์˜ YOLO Detection ๋ชจ๋ธ์„ ๋ฐ”ํƒ•์œผ๋กœ YOLOv2 ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ๋‹ค.

 

 

YOLO๋Š” ์ตœ๊ทผ Detection ๋ชจ๋ธ๋ณด๋‹ค ํฐ ๊ฒฐํ•จ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋ฐ Region Proposal ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜๋Š” Fast R-CNN ๋ชจ๋ธ๋ณด๋‹ค ๋‚ฎ์€ recall ๊ฐ’์„ ๊ฐ€์ง€๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ๋‹ค. ๊ทธ๋ž˜์„œ Classification ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•œ ์ฑ„๋กœ recall ๊ฐ’๊ณผ localization ๊ฐ’์„ ๋†’์ด๋Š” ๊ฒƒ์„ ์ง‘์ค‘์ ์œผ๋กœ ์—ฐ๊ตฌํ–ˆ๋‹ค.

 

 

์ตœ๊ทผ ์ปดํ“จํ„ฐ ๋น„์ „์˜ ํŠธ๋žœ๋“œ๋Š” ๋” ํฌ๊ณ  ๊นŠ์€ ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด์ง€๋งŒ ํ•ด๋‹น ๋ชจ๋ธ์€ ๋น ๋ฅธ ์†๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ๋” ์ •ํ™•ํ•œ ์„ฑ๋Šฅ์„ ๋‚ด๊ธฐ๋ฅผ ์›ํ–ˆ๋‹ค. ๊ทธ๋ž˜์„œ ๋„คํŠธ์›Œํฌ์˜ ํฌ๊ธฐ๋ฅผ ํ‚ค์šฐ๋Š” ๋Œ€์‹  ๊ฐ„๋‹จํ•˜๊ฒŒ ๋งŒ๋“ค๊ณ  ํ•™์Šตํ•˜๊ธฐ ์‰ฝ๊ฒŒ ๋ณ€ํ˜•์„ ํ•˜์˜€๋‹ค. 

 

YOLO์—์„œ YOLOv2๋กœ ๋ฐœ์ „ํ•˜๋ฉด์„œ ์–ด๋–ค ๋ณ€ํ™”๋ฅผ ํ–ˆ๋Š”์ง€ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

 

 

 

Batch Norm์„ Conv Layer์— ์ถ”๊ฐ€ํ•จ์œผ๋กœ์จ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ณด๋‹ค 2% ๋†’์€ mAP๋ฅผ ์–ป์—ˆ๋‹ค. Batch Norm์€ ๋ชจ๋ธ์„ ์ •๊ทœํ™”ํ•˜๋Š”ํ…Œ ๋„์›€์„ ์ค€๋‹ค. ๋˜ํ•œ ์ด๋Š” Overfitting ์—†์ด dropout์„ ๋ชจ๋ธ์—์„œ ์ œ๊ฑฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค€๋‹ค. (์ฒซ ๋ฌธ์žฅ์ด ๋ฌด์Šจ๋ง.?)

 

 

๋ชจ๋“  ์ตœ์‹  Detection ๋ชจ๋ธ๋“ค์€ ImageNet์„ ํ•™์Šตํ•œ Classifier๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. AlexNet์œผ๋กœ ์‹œ์ž‘ํ•˜๋Š” Classifier๋Š” 256 x 256 ์ด๋ฏธ์ง€๋ณด๋‹ค ์ž‘์€ ํ•ด์ƒ๋„๋ฅผ ์ž…๋ ฅ ๋ฐ›๋Š”๋‹ค. YOLO ๊ฐ™์€ ๊ฒฝ์šฐ ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ Resolution์€ 224 x 224 ์ด๊ณ  448 x 448 ๊นŒ์ง€ ํ‚ค์šฐ๊ฒŒ ๋˜๋Š”๋ฐ ์ด๋Š” ์ƒˆ๋กœ์šด ์ž…๋ ฅ ์ด๋ฏธ์ง€ ํ•ด์ƒ๋„์— ์ ์‘์„ ํ•ด์•ผํ•จ์„ ์˜๋ฏธํ•œ๋‹ค. ์ฒ˜์Œ์— Classification ๋„คํŠธ์›Œํฌ๋ฅผ 448 x 448 ํฌ๊ธฐ๋กœ 10 epoch ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๊ณ  Detection ๋„คํŠธ์›Œํฌ์— ๋Œ€ํ•ด์„œ fine tuning์„ ์ ์šฉํ–ˆ๋‹ค.

 

 

์ œ์ผ ์ƒ๋‹จ์˜ Conv Layer๋ฅผ ๊ฑฐ์ณ์„œ ๋‚˜์˜จ Feature์— FC Layer๋ฅผ ์ ์šฉ์‹œ์ผœ BB์˜ ์ขŒํ‘œ๋ฅผ ์˜ˆ์ธกํ•˜๋Š”๋ฐ ์ด๋Š” ํ•ด๋‹น ๋„คํŠธ์›Œํฌ๊ฐ€ ๋” ์‰ฝ๊ฒŒ ํ•™์Šตํ•˜๋„๋ก ๋งŒ๋“ค์–ด์คฌ๋‹ค. (Prediction Coordinate directly์™€ Predict BB using hand-picked์˜ ์ฐจ์ด์ ...?)

 

 

YOLO ๋ชจ๋ธ์— ์žˆ๋Š” FC Layer๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  Anchor Box๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. Pooling Layer๋ฅผ ํ•˜๋‚˜ ์ œ๊ฑฐํ•ด์„œ ๋†’์€ Resolution์„ ์œ ์ง€์‹œ์ผฐ๊ณ  Input Image์˜ ํฌ๊ธฐ๋ฅผ 416์œผ๋กœ ์กฐ์ ˆํ–ˆ๋Š”๋ฐ, ์ด๋Š” Output feature map์˜ ํฌ๊ธฐ๋ฅผ Odd Number๋กœ ๋งž์ถฐ์„œ ํ•˜๋‚˜์˜ Center cell์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•จ์ด๋‹ค.

 

 

 

Anchor Box๋ฅผ ๋„์ž…ํ•˜๋ฉด์„œ Class๋ฅผ ์—์ธกํ•˜๋Š” Classification ๋งค์ปค๋‹ˆ์ฆ˜๊ณผ Localization ์„ ๋ถ„๋ฆฌํ•ด์•ผ ํ–ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋ชจ๋“  Anchor Box๊ฐ€ ์•„๋‹Œ Proposed๋œ Box์— ๋Œ€ํ•œ IOU๋ฅผ  ์˜ˆ์ธกํ•œ๋‹ค.

 

 

Anchor Box๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด์„œ ์ •ํ™•๋„์˜ ๊ฐ์†Œ๊ฐ€ ์žˆ์—ˆ๋‹ค. 

 

 

 

Anchor Box๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด์„œ ๋‘ ๊ฐ€์ง€ ๋ฌธ์ œ์ ์ด ์ƒ๊ฒผ๋Š”๋ฐ ๊ทธ ์ค‘ ์ฒซ ๋ฒˆ์งธ๊ฐ€ Box ์ฐจ์›์ด Hand picked ๋œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ ์ ˆํ•œ Box๋ฅผ ์ฐพ๋„๋ก ํ•™์Šตํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ์šฐ๋ฆฌ๊ฐ€ ๋” ์ข‹์€ ์ง€์ ์„ ์ œ๊ณตํ•˜๋ฉด ํ•ด๋‹น ๋„คํŠธ์›Œํฌ๊ฐ€ ๋” ์‰ฝ๊ฒŒ ํ•™์Šตํ•˜๋„๋ก ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

 

 

์ง์ ‘ ํ›„๋ณด๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ ๋Œ€์‹ , k-means clustering ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉ์‹œ์ผœ์„œ ์ž๋™์ ์œผ๋กœ ์ข‹์€ ํ›„๋ณด๋ฅผ ์„ ํƒํ•˜๋„๋ก ํ•™์Šต์„ ์‹œ์ผฐ๋‹ค.๋งŒ์•ฝ ๊ธฐ์กด์˜ ์œ ํด๋ฆฌ๋””์•ˆ ๊ฑฐ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ k-means ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉ์‹œ์ผฏ๋‹ค๋ฉด ์ž‘์€ Box์— ๋Œ€ํ•œ ์—๋Ÿฌ๊ฐ€ ๋” ์ปธ์„ ๊ฒƒ์ด๋‹ค. ํ•˜์ง€๋งŒ ์šฐ๋ฆฌ๋Š” Box์˜ ํฌ๊ธฐ์™€ ๊ด€๋ จ์—†์ด ์ข‹์€ IOU ๊ฐ’์„ ์–ป์–ด๋‚ด๋Š” ๊ฒƒ์ด์—ˆ๊ธฐ์— ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์‹์œผ๋กœ ์กฐ์ •์„ ํ–ˆ๋‹ค. k ๊ฐ’์„ 5๋กœ ์„ ์ •ํ•˜๋ฉด์„œ ๋ณต์žก๋„์™€ ๋†’์€ recall ๊ฐ’ ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ์ž˜ ๋งž์ถ”์—ˆ๋‹ค.

 

k-means clustering ๋น„๊ต (k =5)

 

Clustering ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ hand-picked๋ฅผ ์‚ฌ์šฉํ•œ Anchor Box์˜ ํ‰๊ท  IOU๋ฅผ ๋น„๊ตํ–ˆ๋‹ค. 

 

 

 

Anchor Box๋ฅผ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ๋ฐœ์ƒํ•œ ๋‘ ๋ฒˆ์งธ ๋ฌธ์ œ์ ์€ Model Instability ์ด๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ ๋ถˆ์•ˆ์ •์„ฑ ๋ฌธ์ œ๋Š” Box์˜ x,y ์ขŒํ‘œ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์œผ๋กœ๋ถ€ํ„ฐ ์˜จ๋‹ค. Region Proposal ๋„คํŠธ์›Œํฌ์—์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ˆ˜์‹์œผ๋กœ ์ขŒํ‘œ๊ฐ€ ๊ณ„์‚ฐ์ด ๋œ๋‹ค.

 

 

์˜ˆ๋ฅผ ๋“ค์–ด tx ์˜ ๊ฐ’์— ๋”ฐ๋ผ์„œ Box๊ฐ€ ์˜ค๋ฅธ์ชฝ, ์™ผ์ชฝ์œผ๋กœ Shiftํ•  ์ˆ˜๋„ ์žˆ๊ฒŒ ๋œ๋‹ค. ์ด๋Ÿฐ ์ˆ˜์‹์€ ์ œ์•ฝ์ ์ด์ง€ ์•Š์•„์„œ ์–ด๋Š Anchor Box๊ฐ€ ์ด๋ฏธ์ง€์˜ ์•„๋ฌด๋Ÿฐ ์ง€์ ์—์„œ ๋๋‚  ์ˆ˜๋„ ์žˆ๋‹ค. ๋žœ๋คํ•˜๊ฒŒ ์ดˆ๊ธฐํ™”๋˜๋Š” ์ด ๋ฌธ์ œ๋Š” Offset์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์˜ ์•ˆ์ •์„ฑ์„ ์ฐพ๊ธฐ์— ๊ธด ์‹œ๊ฐ„์ด ๊ฑธ๋ฆฐ๋‹ค.

 

 

 

๊ธฐ์กด YOLO์™€ ๊ฐ™์ด Offset์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ Grid Cell์˜ ์ƒ๋Œ€์  ์ขŒํ‘œ๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋ณ€๊ฒฝํ–ˆ๋‹ค. ์ด๋Š” GT์˜ ๊ฒฝ๊ณ„๊ฐ’์„ 0์—์„œ 1๋กœ ์กฐ์ •์‹œํ‚ค๊ณ  logistic activation ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด์„œ ํ•ด๋‹น ๋ฒ”์œ„๋กœ ๋–จ์–ด์ง€๋„๋ก ์˜ˆ์ธก๊ฐ’์„ ์กฐ์ •ํ•ด์•ผ ํ•œ๋‹ค.

 

 Output Feature Map์—์„œ 5๊ฐœ์˜ Bounding Box๋ฅผ ์˜ˆ์ธกํ•˜๊ณ  ๋‹ค์Œ๊ณผ ๊ฐ™์€ 5๊ฐœ์˜ t ๊ฐ’์„ ๊ฐ€์ง„๋‹ค. 

 

 

 

YOLOv2 ๋ชจ๋ธ์€ 13 x 13 feature map์œผ๋กœ๋ถ€ํ„ฐ ๋ฌผ์ฒด๋ฅผ Detection ํ•œ๋‹ค. ์ด๋Š” ํฐ ๋ฌผ์ฒด๋ฅผ ๊ฐ์ง€ํ•˜์ง€๋งŒ ์ž‘์€ ๋ฌผ์ฒด์˜ locality๋ฅผ ์‚ด๋ฆฌ๋Š” ๊ฒƒ์ด ์–ด๋ ต๋‹ค. ๊ทธ๋ž˜์„œ ์ด์ „ 26 x 26 Resolution feature๋ฅผ ๊ฐ€์ ธ์™€์„œ ๋”ํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค.

 

 

ResNet ์ฒ˜๋Ÿผ Identity Mapping ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค๊ณ  ๋ณด๋ฉด๋œ๋‹ค. 1% ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ฐ€์ ธ์™”๋‹ค.

 

 

 

๊ธฐ์กด์˜ YOLO ๋ชจ๋ธ์€ 448 x 448 Input Size์˜€์ง€๋งŒ Anchor box๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด์„œ 416 x 416 ์œผ๋กœ ํ•ด์ƒ๋„๋ฅผ ๋‚ฎ์ท„๋‹ค. ํ•˜์ง€๋งŒ ๋‹ค๋ฅธ ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด์„œ ์ ์‘ํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ณ  ์‹ถ์—ˆ๋‹ค. 10 ๋ฐฐ์น˜ ๋งˆ๋‹ค ๋‹ค๋ฅธ ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€๋ฅผ ์„ ํƒํ•ด์„œ ์ ์šฉ์‹œ์ผฐ์œผ๋ฉฐ 32๋ฐฐ Downsample๊นŒ์ง€ ์ ์šฉ์„ ์‹œ์ผœ output Feature๋ฅผ ๋ฝ‘์•„๋ƒˆ๋‹ค. ๊ฐ€์žฅ ์ž‘์€ ํฌ๊ธฐ๋Š” 320 x 320 ์ด๋ฉฐ ๊ฐ€์žฅ ํฐ ํฌ๊ธฐ๋Š” 608 x 608 ์ด๋‹ค.

 

 

์ด๋Ÿฐ ๋ฐฉ๋ฒ•์€ ๋„คํŠธ์›Œํฌ๊ฐ€ ๋‹ค์–‘ํ•œ Input ํฌ๊ธฐ์— ๋งž์ถฐ ์˜ˆ์ธก์„ ํ•˜๋„๋ก ํ•™์Šต์„ ๋„์šฐ๋ฉฐ ์†๋„์™€ ์ •ํ™•๋„ ์‚ฌ์ด์˜ Trade off๋ฅผ ์ž˜ ์กฐ์ ˆํ–ˆ๋‹ค. 

 

 

 

YOLOv2 ๋ชจ๋ธ๊ณผ ๋‹ค๋ฅธ ๋ชจ๋ธ์˜ ์†๋„์™€ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•œ ํ‘œ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

 

 

 

 

์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ๋น ๋ฅธ ์†๋„์˜ ๋ชจ๋ธ์„ ์–ป๊ณ ์ž ํ–ˆ๋‹ค. ๋Œ€๋ถ€๋ถ„ Detection์˜ ํ”„๋ ˆ์ž„ ์›Œํฌ๋Š” VGG-16์— ๊ธฐ๋ฐ˜ํ•œ๋‹ค. ํ•˜์ง€๋งŒ VGG-16์— ๊ธฐ๋ฐ˜ํ•œ 224 x 224 ์ด๋ฏธ์ง€๋Š” 30.60 billion floating point์— ํ•ด๋‹นํ•˜๋Š” ๋งŽ์€ ์—ฐ์‚ฐ๋Ÿ‰์„ ์š”๊ตฌํ•œ๋‹ค.

 

 

YOLO์˜ ๊ฒฝ์šฐ Googlenet ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋งŒ๋“ค์–ด์ง„ ํ”„๋ ˆ์ž„ ์›Œํฌ์ด๋‹ค. ์ด๋Š” VGG-16๋ณด๋‹ค ๋น ๋ฅด์ง€๋งŒ ์ •ํ™•๋„๊ฐ€ ์ข‹์ง€ ๋ชปํ•˜๋‹ค.

 

 

 

YOLOv2๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋Š” ์ƒˆ๋กœ์šด Classification ๋ชจ๋ธ์„ ์ œ์•ˆํ•œ๋‹ค. 3x3 filter๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  Pooling ์ดํ›„ Channel์„ 2๋ฐฐ ๋Š˜๋ฆฌ๋Š” ์ž‘์—…์„ VGG ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ์ง„ํ–‰ํ•œ๋‹ค. Batch Norm๋„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต ๊ฐ„์˜ ์•ˆ์ •์„ฑ์„ ๋Š˜๋ฆฌ๊ณ , ์ˆ˜๋ ด ์†๋„๋ฅผ ๋Š˜๋ฆฌ๋Š” ๊ฒƒ์— ์‹ ๊ฒฝ์„ ์ผ๋‹ค. 

 

 

Darknet-19๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š” ์ตœ์ข… ๋ชจ๋ธ์€ 19๊ฐœ์˜ Conv layer์™€ 5๊ฐœ์˜ Max-Pooling layer๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

Darknet-19 ๊ตฌ์กฐ

 

 

1000๊ฐœ ํด๋ž˜์Šค๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ImageNet ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ SGD ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ด์„œ ํ•™์Šตํ•œ๋‹ค. Learning rate = 0.1, decay = 4, weight decay = 0.0005, momentun = 0.9 ์‚ฌ์šฉ. Data augmentation๋„ ์ง„ํ–‰.

 

 

Detection ๋ชจ๋ธ์„ ์œ„ํ•ด์„œ ๋งˆ์ง€๋ง‰ Conv Layer๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  1x1 Conv Layer ๋’ค์— 3๊ฐœ์˜ 3x3x1024 Conv Layer๋ฅผ ์ถ”๊ฐ€ํ–ˆ๋‹ค. VOC ๋ฐ์ดํ„ฐ์…‹์—์„œ 5๊ฐœ์˜ ์ขŒํ‘œ์™€ 20๊ฐœ์˜ Class prediction ๊ฐ’์„ ํฌํ•จํ•˜๋Š” ๊ฐ Box 5๊ฐœ๋ฅผ ์˜ˆ์ธกํ–ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋งˆ์ง€๋ง‰ 3x3x512 Layer์—์„œ ๋งˆ์ง€๋ง‰์—์„œ 2 ๋ฒˆ์งธ Layer๋ฅผ ํ†ต๊ณผํ•˜๋Š” Layer๋ฅผ ์ถ”๊ฐ€ํ–ˆ๋‹ค. (Fine Grain Feature ๋ฅผ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•จ์ด๋ผ๋Š” ๊ฒƒ์€ ๋ฌด์Šจ ๋œป์ผ๊นŒ...?)

 

 

160 ์—ํญ์œผ๋กœ ํ•™์Šต์„ ํ–ˆ๊ณ  ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐฉ๋ฒ•์œผ๋กœ ํ•™์Šต์„ ๋Œ๋ ธ๋‹ค.

 

 

Classification Data์™€ Detection Data๋ฅผ ์„ž์–ด์„œ ํ•™์Šต์‹œํ‚ค๋Š” ๋งค์ปค๋‹ˆ์ฆ˜์„ ์ œ๊ณตํ•œ๋‹ค.

 

 

 

Detection์„ ์œ„ํ•ด labeling ๋œ ์ด๋ฏธ์ง€๋ฅผ ๋ณผ ๋•Œ๋Š” YOLOv2 ์˜ loss function์„ ์‚ฌ์šฉํ•ด์„œ  Backpropagate๋ฅผ ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  Classification ์ด๋ฏธ์ง€๋ฅผ ๋ณผ๋•Œ๋Š” ํŠน์ • ๋ถ€๋ถ„์˜ Loss๋ฅผ ๊ตฌํ•ด์„œ ํ•™์Šต์„ ํ•ด์•ผ ํ•œ๋‹ค.

 

 

ํ•ด๋‹น ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋ช‡ ๊ฐœ์˜ ๋ฌธ์ œ์ ์„ ๊ฐ–๊ณ  ์žˆ๋‹ค. Detection ๋ฐ์ดํ„ฐ ์…‹์€ ์ผ๋ฐ˜์ ์ธ ๋ฌผ์ฒด์— ๋Œ€ํ•ด Labeling์„ ๊ฐ–๊ณ  ์žˆ๋‹ค. Classification ๋ฐ์ดํ„ฐ ์…‹์˜ ๊ฒฝ์šฐ ๋” ๋„“๊ณ  ์ž์„ธํ•œ ๋ฒ”์œ„์˜ label์ด ๋˜์–ด์ž‡๋‹ค. ImageNet ์˜ ๊ฒฝ์šฐ ๊ฐœ์˜ ํ’ˆ์ข… 100๊ฐœ์— ๋Œ€ํ•œ ๊ตฌ๋ถ„์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ๋งŒ์•ฝ ๋‘๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์…‹์„ ๊ฐ™์ด ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ ์ด๋Ÿฌํ•œ label์„ ๋ณ‘ํ•ฉํ•˜๋Š” ๊ณผ์ •์„ ๊ฑฐ์ณ์•ผ ํ–ˆ๋‹ค.

 

 

Classification์„ ์œ„ํ•ด์„œ๋Š” Softmax Later๋ฅผ ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ์นดํ…Œ๊ณ ๋ฆฌ์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ์ด ๋˜์—ˆ๋‹ค. (Softmax๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์€ ํด๋ž˜์Šค๋“ค์ด ์ƒํ˜ธ ๋ฐฐํƒ€์ ์ด๋ผ๋Š” ๊ฒƒ์„ ๊ฐ€์ •ํ•œ๋‹ค.. ์ด๊ฑฐ๋Š” ๋ฌด์Šจ ๋œป์ผ๊นŒ..?) ํ•˜์ง€๋งŒ ์ด๋Š” ๋ฌธ์ œ๋ฅผ ์•ผ๊ธฐํ•˜๋Š” ๋ฐ ์–˜๋ฅผ ๋“ค์–ด ์š”ํฌ์…ฐํ…Œ๋ฆฌ์–ด์™€ ๊ฐ•์•„์ง€๋Š” ์ƒํ˜ธ ๋ฐฐํƒ€์ ์ด์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ImageNet๊ณผ COCO๋ฅผ ๋ณ‘ํ•ฉํ•˜๊ณ  ์‹ถ์ง€ ์•Š์„ ๊ฒƒ์ด๋‹ค.

 

๋Œ€์‹  ์šฐ๋ฆฌ๋Š” ์ƒํ˜ธ ๋ฐฐํƒ€์ ์ž„์„ ๊ฐ€์ •ํ•˜์ง€ ์•Š๊ฒŒ Multi-label ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•ด๋‹น ์ ‘๊ทผ์€ ์šฐ๋ฆฌ๊ฐ€ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์•Œ๊ณ  ์žˆ๋Š” ๋ชจ๋“  ๊ตฌ์กฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฌด์‹œํ•œ๋‹ค. (์ž˜ ๋ชจ๋ฅด๊ฒ ๋‹ค..)

 

 

ImageNet ๋ฐ์ดํ„ฐ ์…‹์€ WordNet์œผ๋กœ๋ถ€ํ„ฐ ์ถ”์ถœ๋˜์—ˆ๋Š”๋ฐ, ๋ฐ์ดํ„ฐ๋“ค์ด ์–ผ๋งˆ๋‚˜ ์—ฐ๊ด€๋˜์–ด ์žˆ๋Š”์ง€๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ตฌ์กฐ๊ฐ€ ์ด๋ฃจ์–ด์ ธ์žˆ๋‹ค. ๋Œ€๋ถ€๋ถ„์˜ Classification์„ ํ•˜๊ธฐ์œ„ํ•ด์„œ๋Š” Label์— ๋‹จ์ˆœํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ •ํ•˜์ง€๋งŒ Dataset์„ ํ•ฉ์น˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํ•ด๋‹น ๊ตฌ์กฐ๊ฐ€ ์ •ํ™•ํ•ด์•ผ ํ•œ๋‹ค.

 

 

WordNet์€ Directed Graph ๊ตฌ์กฐ๋กœ ๋˜์–ด์žˆ๋Š”๋ฐ ์–ธ์–ด ๋ชจ๋ธ์ด ๋ณต์žกํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. Full Graph๋ฅผ ๋Œ€์‹  Directed Graph๋ฅผ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ์จ ๋ฌธ์ œ๋ฅผ ๋‹จ์ˆœํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค.