๋๋ถ๋ถ์ Object Detection ๋ฐฉ๋ฒ์ด ์ฌ์ ํ ์์ ๋ฌผ์ฒด๋ฅผ ๊ฐ์งํ๋๋ฐ ์ด๋ ค์์ ๊ฒช๊ณ ์๋ค. ์ต๊ทผ Object Detection์ Dataset์ด ๋ค๋ฅธ Task ๋ชจ๋ธ์ Dataset๊ณผ ๋ค๋ฅด๊ฒ ์ ํ์ ์ด๋ค. ๋ฌผ์ฒด์ level์ ๋ฐ๋ผ ํฌ๊ธฐ๋ฅผ Detect ํ๊ณ ์ถ์ง๋ง Classification์ด๋ Tagging์ ๋นํด์ ๋ผ๋ฒจ๋ง์ ํ ๋ ๋ ๋ง์ ์ฐ์ฐ์ด ์๊ตฌ๋๋ค.
๊ทธ๋์ ๊ธฐ์กด์ ๊ฐ์ง๊ณ ์๋ Classification Data๋ฅผ ์ฌ์ฉํด์ Detection ์ฒด๊ณ๋ก ๋ฒ์๋ฅผ ํ์ฅํด์ ์ฌ์ฉํ๋ค.
Joint ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํด์ ๋ฌผ์ฒด์ ์์น๋ฅผ ์ ํํ๊ฒ ํ์ตํจ๊ณผ ๋์์ ํด๋น ๋ฌผ์ฒด์ Classification ๋ํ ์งํํ ์ ์๋ค.
์ค์๊ฐ Object Detector๋ก 9000๊ฐ์ ๋ค๋ฅธ ๋ฌผ์ฒด๋ฅผ ๊ฐ์งํ ์ ์๋ค. ๊ธฐ์กด์ YOLO Detection ๋ชจ๋ธ์ ๋ฐํ์ผ๋ก YOLOv2 ๋ชจ๋ธ์ ๋ง๋ค์๋ค.
YOLO๋ ์ต๊ทผ Detection ๋ชจ๋ธ๋ณด๋ค ํฐ ๊ฒฐํจ์ ๊ฐ์ง๊ณ ์๋ ๋ฐ Region Proposal ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ Fast R-CNN ๋ชจ๋ธ๋ณด๋ค ๋ฎ์ recall ๊ฐ์ ๊ฐ์ง๋ ๊ฒ์ ํ์ธํ๋ค. ๊ทธ๋์ Classification ์ ํ๋๋ฅผ ์ ์งํ ์ฑ๋ก recall ๊ฐ๊ณผ localization ๊ฐ์ ๋์ด๋ ๊ฒ์ ์ง์ค์ ์ผ๋ก ์ฐ๊ตฌํ๋ค.
์ต๊ทผ ์ปดํจํฐ ๋น์ ์ ํธ๋๋๋ ๋ ํฌ๊ณ ๊น์ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด์ง๋ง ํด๋น ๋ชจ๋ธ์ ๋น ๋ฅธ ์๋๋ฅผ ์ ์งํ๋ฉด์ ๋ ์ ํํ ์ฑ๋ฅ์ ๋ด๊ธฐ๋ฅผ ์ํ๋ค. ๊ทธ๋์ ๋คํธ์ํฌ์ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๋์ ๊ฐ๋จํ๊ฒ ๋ง๋ค๊ณ ํ์ตํ๊ธฐ ์ฝ๊ฒ ๋ณํ์ ํ์๋ค.
Batch Norm์ Conv Layer์ ์ถ๊ฐํจ์ผ๋ก์จ ๊ธฐ์กด YOLO ๋ชจ๋ธ๋ณด๋ค 2% ๋์ mAP๋ฅผ ์ป์๋ค. Batch Norm์ ๋ชจ๋ธ์ ์ ๊ทํํ๋ํ ๋์์ ์ค๋ค. ๋ํ ์ด๋ Overfitting ์์ด dropout์ ๋ชจ๋ธ์์ ์ ๊ฑฐํ ์ ์๊ฒ ํด์ค๋ค. (์ฒซ ๋ฌธ์ฅ์ด ๋ฌด์จ๋ง.?)
๋ชจ๋ ์ต์ Detection ๋ชจ๋ธ๋ค์ ImageNet์ ํ์ตํ Classifier๋ฅผ ์ฌ์ฉํ๋ค. AlexNet์ผ๋ก ์์ํ๋ Classifier๋ 256 x 256 ์ด๋ฏธ์ง๋ณด๋ค ์์ ํด์๋๋ฅผ ์ ๋ ฅ ๋ฐ๋๋ค. YOLO ๊ฐ์ ๊ฒฝ์ฐ ์ ๋ ฅ ์ด๋ฏธ์ง์ Resolution์ 224 x 224 ์ด๊ณ 448 x 448 ๊น์ง ํค์ฐ๊ฒ ๋๋๋ฐ ์ด๋ ์๋ก์ด ์ ๋ ฅ ์ด๋ฏธ์ง ํด์๋์ ์ ์์ ํด์ผํจ์ ์๋ฏธํ๋ค. ์ฒ์์ Classification ๋คํธ์ํฌ๋ฅผ 448 x 448 ํฌ๊ธฐ๋ก 10 epoch ํ์ต์ ์งํํ๊ณ Detection ๋คํธ์ํฌ์ ๋ํด์ fine tuning์ ์ ์ฉํ๋ค.
์ ์ผ ์๋จ์ Conv Layer๋ฅผ ๊ฑฐ์ณ์ ๋์จ Feature์ FC Layer๋ฅผ ์ ์ฉ์์ผ BB์ ์ขํ๋ฅผ ์์ธกํ๋๋ฐ ์ด๋ ํด๋น ๋คํธ์ํฌ๊ฐ ๋ ์ฝ๊ฒ ํ์ตํ๋๋ก ๋ง๋ค์ด์คฌ๋ค. (Prediction Coordinate directly์ Predict BB using hand-picked์ ์ฐจ์ด์ ...?)
YOLO ๋ชจ๋ธ์ ์๋ FC Layer๋ฅผ ์ ๊ฑฐํ๊ณ Anchor Box๋ฅผ ์ฌ์ฉํ๋ค. Pooling Layer๋ฅผ ํ๋ ์ ๊ฑฐํด์ ๋์ Resolution์ ์ ์ง์์ผฐ๊ณ Input Image์ ํฌ๊ธฐ๋ฅผ 416์ผ๋ก ์กฐ์ ํ๋๋ฐ, ์ด๋ Output feature map์ ํฌ๊ธฐ๋ฅผ Odd Number๋ก ๋ง์ถฐ์ ํ๋์ Center cell์ ๋ง๋ค๊ธฐ ์ํจ์ด๋ค.
Anchor Box๋ฅผ ๋์ ํ๋ฉด์ Class๋ฅผ ์์ธกํ๋ Classification ๋งค์ปค๋์ฆ๊ณผ Localization ์ ๋ถ๋ฆฌํด์ผ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ Anchor Box๊ฐ ์๋ Proposed๋ Box์ ๋ํ IOU๋ฅผ ์์ธกํ๋ค.
Anchor Box๋ฅผ ์ฌ์ฉํ๋ฉด์ ์ ํ๋์ ๊ฐ์๊ฐ ์์๋ค.
Anchor Box๋ฅผ ์ฌ์ฉํ๋ฉด์ ๋ ๊ฐ์ง ๋ฌธ์ ์ ์ด ์๊ฒผ๋๋ฐ ๊ทธ ์ค ์ฒซ ๋ฒ์งธ๊ฐ Box ์ฐจ์์ด Hand picked ๋๋ค๋ ๊ฒ์ด๋ค. ์ ์ ํ Box๋ฅผ ์ฐพ๋๋ก ํ์ตํ ์ ์์ง๋ง ์ฐ๋ฆฌ๊ฐ ๋ ์ข์ ์ง์ ์ ์ ๊ณตํ๋ฉด ํด๋น ๋คํธ์ํฌ๊ฐ ๋ ์ฝ๊ฒ ํ์ตํ๋๋ก ๋ง๋ค ์ ์๋ค๋ ๊ฒ์ด๋ค.
์ง์ ํ๋ณด๋ฅผ ์ ํํ๋ ๊ฒ ๋์ , k-means clustering ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉ์์ผ์ ์๋์ ์ผ๋ก ์ข์ ํ๋ณด๋ฅผ ์ ํํ๋๋ก ํ์ต์ ์์ผฐ๋ค.๋ง์ฝ ๊ธฐ์กด์ ์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ k-means ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉ์์ผฏ๋ค๋ฉด ์์ Box์ ๋ํ ์๋ฌ๊ฐ ๋ ์ปธ์ ๊ฒ์ด๋ค. ํ์ง๋ง ์ฐ๋ฆฌ๋ Box์ ํฌ๊ธฐ์ ๊ด๋ จ์์ด ์ข์ IOU ๊ฐ์ ์ป์ด๋ด๋ ๊ฒ์ด์๊ธฐ์ ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ์กฐ์ ์ ํ๋ค. k ๊ฐ์ 5๋ก ์ ์ ํ๋ฉด์ ๋ณต์ก๋์ ๋์ recall ๊ฐ ์ฌ์ด์ ๊ท ํ์ ์ ๋ง์ถ์๋ค.
Clustering ์๊ณ ๋ฆฌ์ฆ๊ณผ hand-picked๋ฅผ ์ฌ์ฉํ Anchor Box์ ํ๊ท IOU๋ฅผ ๋น๊ตํ๋ค.
Anchor Box๋ฅผ ์ฌ์ฉํ์ ๋ ๋ฐ์ํ ๋ ๋ฒ์งธ ๋ฌธ์ ์ ์ Model Instability ์ด๋ค. ๋๋ถ๋ถ์ ๋ถ์์ ์ฑ ๋ฌธ์ ๋ Box์ x,y ์ขํ๋ฅผ ์์ธกํ๋ ๊ฒ์ผ๋ก๋ถํฐ ์จ๋ค. Region Proposal ๋คํธ์ํฌ์์๋ ๋ค์๊ณผ ๊ฐ์ ์์์ผ๋ก ์ขํ๊ฐ ๊ณ์ฐ์ด ๋๋ค.
์๋ฅผ ๋ค์ด tx ์ ๊ฐ์ ๋ฐ๋ผ์ Box๊ฐ ์ค๋ฅธ์ชฝ, ์ผ์ชฝ์ผ๋ก Shiftํ ์๋ ์๊ฒ ๋๋ค. ์ด๋ฐ ์์์ ์ ์ฝ์ ์ด์ง ์์์ ์ด๋ Anchor Box๊ฐ ์ด๋ฏธ์ง์ ์๋ฌด๋ฐ ์ง์ ์์ ๋๋ ์๋ ์๋ค. ๋๋คํ๊ฒ ์ด๊ธฐํ๋๋ ์ด ๋ฌธ์ ๋ Offset์ ์์ธกํ๋ ๊ฒ์ ์์ ์ฑ์ ์ฐพ๊ธฐ์ ๊ธด ์๊ฐ์ด ๊ฑธ๋ฆฐ๋ค.
๊ธฐ์กด YOLO์ ๊ฐ์ด Offset์ ์์ธกํ๋ ๊ฒ์ด ์๋๋ผ Grid Cell์ ์๋์ ์ขํ๋ฅผ ์์ธกํ๋ ๊ฒ์ผ๋ก ๋ณ๊ฒฝํ๋ค. ์ด๋ GT์ ๊ฒฝ๊ณ๊ฐ์ 0์์ 1๋ก ์กฐ์ ์ํค๊ณ logistic activation ํจ์๋ฅผ ์ฌ์ฉํด์ ํด๋น ๋ฒ์๋ก ๋จ์ด์ง๋๋ก ์์ธก๊ฐ์ ์กฐ์ ํด์ผ ํ๋ค.
Output Feature Map์์ 5๊ฐ์ Bounding Box๋ฅผ ์์ธกํ๊ณ ๋ค์๊ณผ ๊ฐ์ 5๊ฐ์ t ๊ฐ์ ๊ฐ์ง๋ค.
YOLOv2 ๋ชจ๋ธ์ 13 x 13 feature map์ผ๋ก๋ถํฐ ๋ฌผ์ฒด๋ฅผ Detection ํ๋ค. ์ด๋ ํฐ ๋ฌผ์ฒด๋ฅผ ๊ฐ์งํ์ง๋ง ์์ ๋ฌผ์ฒด์ locality๋ฅผ ์ด๋ฆฌ๋ ๊ฒ์ด ์ด๋ ต๋ค. ๊ทธ๋์ ์ด์ 26 x 26 Resolution feature๋ฅผ ๊ฐ์ ธ์์ ๋ํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
ResNet ์ฒ๋ผ Identity Mapping ๋ฐฉ์์ ์ฌ์ฉํ๋ค๊ณ ๋ณด๋ฉด๋๋ค. 1% ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์๋ค.
๊ธฐ์กด์ YOLO ๋ชจ๋ธ์ 448 x 448 Input Size์์ง๋ง Anchor box๋ฅผ ์ฌ์ฉํ๋ฉด์ 416 x 416 ์ผ๋ก ํด์๋๋ฅผ ๋ฎ์ท๋ค. ํ์ง๋ง ๋ค๋ฅธ ํฌ๊ธฐ์ ์ด๋ฏธ์ง์ ๋ํด์ ์ ์ํ ์ ์๋ ๋ชจ๋ธ์ ๋ง๋ค๊ณ ์ถ์๋ค. 10 ๋ฐฐ์น ๋ง๋ค ๋ค๋ฅธ ํฌ๊ธฐ์ ์ด๋ฏธ์ง๋ฅผ ์ ํํด์ ์ ์ฉ์์ผฐ์ผ๋ฉฐ 32๋ฐฐ Downsample๊น์ง ์ ์ฉ์ ์์ผ output Feature๋ฅผ ๋ฝ์๋๋ค. ๊ฐ์ฅ ์์ ํฌ๊ธฐ๋ 320 x 320 ์ด๋ฉฐ ๊ฐ์ฅ ํฐ ํฌ๊ธฐ๋ 608 x 608 ์ด๋ค.
์ด๋ฐ ๋ฐฉ๋ฒ์ ๋คํธ์ํฌ๊ฐ ๋ค์ํ Input ํฌ๊ธฐ์ ๋ง์ถฐ ์์ธก์ ํ๋๋ก ํ์ต์ ๋์ฐ๋ฉฐ ์๋์ ์ ํ๋ ์ฌ์ด์ Trade off๋ฅผ ์ ์กฐ์ ํ๋ค.
YOLOv2 ๋ชจ๋ธ๊ณผ ๋ค๋ฅธ ๋ชจ๋ธ์ ์๋์ ์ฑ๋ฅ์ ๋น๊ตํ ํ๋ ์๋์ ๊ฐ๋ค.
์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ ๋น ๋ฅธ ์๋์ ๋ชจ๋ธ์ ์ป๊ณ ์ ํ๋ค. ๋๋ถ๋ถ Detection์ ํ๋ ์ ์ํฌ๋ VGG-16์ ๊ธฐ๋ฐํ๋ค. ํ์ง๋ง VGG-16์ ๊ธฐ๋ฐํ 224 x 224 ์ด๋ฏธ์ง๋ 30.60 billion floating point์ ํด๋นํ๋ ๋ง์ ์ฐ์ฐ๋์ ์๊ตฌํ๋ค.
YOLO์ ๊ฒฝ์ฐ Googlenet ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ค์ด์ง ํ๋ ์ ์ํฌ์ด๋ค. ์ด๋ VGG-16๋ณด๋ค ๋น ๋ฅด์ง๋ง ์ ํ๋๊ฐ ์ข์ง ๋ชปํ๋ค.
YOLOv2๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์๋ก์ด Classification ๋ชจ๋ธ์ ์ ์ํ๋ค. 3x3 filter๋ฅผ ์ฌ์ฉํ๊ณ Pooling ์ดํ Channel์ 2๋ฐฐ ๋๋ฆฌ๋ ์์ ์ VGG ๋ชจ๋ธ๊ณผ ์ ์ฌํ๊ฒ ์งํํ๋ค. Batch Norm๋ ์ฌ์ฉํ์ฌ ํ์ต ๊ฐ์ ์์ ์ฑ์ ๋๋ฆฌ๊ณ , ์๋ ด ์๋๋ฅผ ๋๋ฆฌ๋ ๊ฒ์ ์ ๊ฒฝ์ ์ผ๋ค.
Darknet-19๋ผ๊ณ ๋ถ๋ฆฌ๋ ์ต์ข ๋ชจ๋ธ์ 19๊ฐ์ Conv layer์ 5๊ฐ์ Max-Pooling layer๋ฅผ ์ฌ์ฉํ๋ค.
1000๊ฐ ํด๋์ค๋ฅผ ๊ฐ์ง๊ณ ์๋ ImageNet ๋ฐ์ดํฐ์ ์ผ๋ก SGD ๋ฐฉ์์ ์ฌ์ฉํด์ ํ์ตํ๋ค. Learning rate = 0.1, decay = 4, weight decay = 0.0005, momentun = 0.9 ์ฌ์ฉ. Data augmentation๋ ์งํ.
Detection ๋ชจ๋ธ์ ์ํด์ ๋ง์ง๋ง Conv Layer๋ฅผ ์ ๊ฑฐํ๊ณ 1x1 Conv Layer ๋ค์ 3๊ฐ์ 3x3x1024 Conv Layer๋ฅผ ์ถ๊ฐํ๋ค. VOC ๋ฐ์ดํฐ์ ์์ 5๊ฐ์ ์ขํ์ 20๊ฐ์ Class prediction ๊ฐ์ ํฌํจํ๋ ๊ฐ Box 5๊ฐ๋ฅผ ์์ธกํ๋ค. ๊ทธ๋ฆฌ๊ณ ๋ง์ง๋ง 3x3x512 Layer์์ ๋ง์ง๋ง์์ 2 ๋ฒ์งธ Layer๋ฅผ ํต๊ณผํ๋ Layer๋ฅผ ์ถ๊ฐํ๋ค. (Fine Grain Feature ๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํจ์ด๋ผ๋ ๊ฒ์ ๋ฌด์จ ๋ป์ผ๊น...?)
160 ์ํญ์ผ๋ก ํ์ต์ ํ๊ณ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ํ์ต์ ๋๋ ธ๋ค.
Classification Data์ Detection Data๋ฅผ ์์ด์ ํ์ต์ํค๋ ๋งค์ปค๋์ฆ์ ์ ๊ณตํ๋ค.
Detection์ ์ํด labeling ๋ ์ด๋ฏธ์ง๋ฅผ ๋ณผ ๋๋ YOLOv2 ์ loss function์ ์ฌ์ฉํด์ Backpropagate๋ฅผ ํ ์ ์๋ค. ๊ทธ๋ฆฌ๊ณ Classification ์ด๋ฏธ์ง๋ฅผ ๋ณผ๋๋ ํน์ ๋ถ๋ถ์ Loss๋ฅผ ๊ตฌํด์ ํ์ต์ ํด์ผ ํ๋ค.
ํด๋น ์ ๊ทผ ๋ฐฉ์์ ๋ช ๊ฐ์ ๋ฌธ์ ์ ์ ๊ฐ๊ณ ์๋ค. Detection ๋ฐ์ดํฐ ์ ์ ์ผ๋ฐ์ ์ธ ๋ฌผ์ฒด์ ๋ํด Labeling์ ๊ฐ๊ณ ์๋ค. Classification ๋ฐ์ดํฐ ์ ์ ๊ฒฝ์ฐ ๋ ๋๊ณ ์์ธํ ๋ฒ์์ label์ด ๋์ด์๋ค. ImageNet ์ ๊ฒฝ์ฐ ๊ฐ์ ํ์ข 100๊ฐ์ ๋ํ ๊ตฌ๋ถ์ด ๊ฐ๋ฅํ๋ค. ๋ง์ฝ ๋๊ฐ์ ๋ฐ์ดํฐ ์ ์ ๊ฐ์ด ์ฌ์ฉํ๊ธฐ ์ํด์ ์ด๋ฌํ label์ ๋ณํฉํ๋ ๊ณผ์ ์ ๊ฑฐ์ณ์ผ ํ๋ค.
Classification์ ์ํด์๋ Softmax Later๋ฅผ ๋ชจ๋ ๊ฐ๋ฅํ ์นดํ ๊ณ ๋ฆฌ์ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด ์ฌ์ฉ์ด ๋์๋ค. (Softmax๋ฅผ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ํด๋์ค๋ค์ด ์ํธ ๋ฐฐํ์ ์ด๋ผ๋ ๊ฒ์ ๊ฐ์ ํ๋ค.. ์ด๊ฑฐ๋ ๋ฌด์จ ๋ป์ผ๊น..?) ํ์ง๋ง ์ด๋ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ ๋ฐ ์๋ฅผ ๋ค์ด ์ํฌ์ ฐํ ๋ฆฌ์ด์ ๊ฐ์์ง๋ ์ํธ ๋ฐฐํ์ ์ด์ง ์๊ธฐ ๋๋ฌธ์ ImageNet๊ณผ COCO๋ฅผ ๋ณํฉํ๊ณ ์ถ์ง ์์ ๊ฒ์ด๋ค.
๋์ ์ฐ๋ฆฌ๋ ์ํธ ๋ฐฐํ์ ์์ ๊ฐ์ ํ์ง ์๊ฒ Multi-label ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ์๋ค. ํด๋น ์ ๊ทผ์ ์ฐ๋ฆฌ๊ฐ ๋ฐ์ดํฐ์ ๋ํด ์๊ณ ์๋ ๋ชจ๋ ๊ตฌ์กฐ ๋ฐ์ดํฐ๋ฅผ ๋ฌด์ํ๋ค. (์ ๋ชจ๋ฅด๊ฒ ๋ค..)
ImageNet ๋ฐ์ดํฐ ์ ์ WordNet์ผ๋ก๋ถํฐ ์ถ์ถ๋์๋๋ฐ, ๋ฐ์ดํฐ๋ค์ด ์ผ๋ง๋ ์ฐ๊ด๋์ด ์๋์ง๋ฅผ ๋ฐํ์ผ๋ก ๊ตฌ์กฐ๊ฐ ์ด๋ฃจ์ด์ ธ์๋ค. ๋๋ถ๋ถ์ Classification์ ํ๊ธฐ์ํด์๋ Label์ ๋จ์ํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ ํ์ง๋ง Dataset์ ํฉ์น๊ธฐ ์ํด์๋ ํด๋น ๊ตฌ์กฐ๊ฐ ์ ํํด์ผ ํ๋ค.
WordNet์ Directed Graph ๊ตฌ์กฐ๋ก ๋์ด์๋๋ฐ ์ธ์ด ๋ชจ๋ธ์ด ๋ณต์กํ๊ธฐ ๋๋ฌธ์ด๋ค. Full Graph๋ฅผ ๋์ Directed Graph๋ฅผ ์ฌ์ฉํ๋ฏ๋ก์จ ๋ฌธ์ ๋ฅผ ๋จ์ํํ ์ ์๋ค.