hye-log

[부스트캠프 AI Tech]WEEK 10_DAY 46 본문

Boostcourse/AI Tech 4기

[부스트캠프 AI Tech]WEEK 10_DAY 46

iihye_ 2022. 11. 23. 20:49

⚽ 개별학습


[8] Advanced Object Detection 2

1. YOLO v4

1) Overview

(1) Background

- 최신 Detection에서 정확도는 크게 향상했지만, 많은 GPU 필요

- 실시간 task에는 부적합

- 다른 detector보다 빠르면서 정확도가 높음

(2) Contribution

- 하나의 GPU에서 훈련할 수 있는 빠르고 정확한 Object Detector

- BOF(Bag of Freebies, inference 비용 유지, 정확도 향상), BOS(Bag of Specials, inference 비용 높임, 정확도 향상) 실험을 통해서 증명

- GPU 학습에 효율적이고 적합하도록 방법들을 변형

 

2) Related work

(1) Object Detection Model

- Input : Image, Patches, Image Pyramid, ...

- Backbone : (GPU) VGG, Resnet, ResNext, ... / (CPU) SqueezeNet, MobileNet, ShuffleNet, ...

- Neck : (Additional blocks) SPP, ASPP, ... / (Path-aggregation blocks) FPN, PAN, NAS-FPN, BiFPN, ...

- Head : (Dense Prediction - one stage) RPN, YOLO, SSD, RetinaNet, CornerNet, FCOS, ... / (Sparse Prediction - two stage) Faster R-CNN, R-FCN, Mask R-CNN, ...

(2) Bag of Freebies : Inference 단계에서 cost를 늘리지 않는 방법

- Data Augmentation : Phtometric Distortions, Geometric Distortions, Cutout, Random erase, Mixup, Cutmix, GAN

-> CutMix : 이미지의 패치 영역만큼 잘라내서 다른 이미지에 붙여 넣고, ground truth  라벨도 패치 영역만큼 섞는 방법

- Semantic Distribution Bias : Hard Negative Mining, OHEM, Focal Loss, Label Smoothing

-> Label Smoothing : 특정 라벨(배경)이 많은 경우 해결하는 방법

- Bounding Box Regression : MSE, GIoU, DIoU, CIoU

-> GIoU : IoU 기반 loss

(3) Bag of Specials : Inference 단계에서 cost가 발생하지만 성능 향상에 도움이 됨

- Enhancement of Receptive field : Spatial Pyramid Pooling(SPP), Atrous SPP(ASPP), Receptive Field Block(RFB)

- Attention Module : Squeeze-and-Excitation(SE), Spatial Attention Module(SAM)

- Feature Integration : Feature Pyramid Network(FPN), Scale-wise Feature Aggregation Module(SFPM), Adaptively Spatial Feature Fusion(ASFF), BiFPN

 

3) Architecture

(1) Detector의 고려사항

- 작은 물체를 검출 -> 큰 네트워크 입력 사이즈 필요

- 네트워크 입력 사이즈의 증가 -> 큰 receptive field 필요 -> 많은 레이어 필요

- 하나의 이미지에서 다양한 사이즈의 물체 검출 -> 큰 용량의 모델 필요 -> 많은 파라미터 필요

(2) Overall Architecture

(3) Cross Stage Partial Network(CSPNet)

- 기존 DenseNet은 가중치를 업데이트할 때 gradient 정보를 재사용함- gradient 중복 사용을 방지함 -> 정확도 유지하면서 경량화, 메모리 cost 감소

(4) Additional Improvements

- 새로운 data augmentation 방법 : Mosaic, Self-Adversarial Training(SAT)

-> Mosaic : 4장의 이미지를 하나의 이미지로 합치는 방법

-> Self-Adversarial Training : 1 stage에서는 이미지 안에 객체를 없애고, 2 stage에서는 변형된 이미지를 가지고 학습

- 기존 방법 변형 : modified SAM, modified PAN, Cross mini-Batch Normalization(CmBN)



⚽ 오늘의 회고

Swin transformer 기반으로 학습해보고 있는데, pretrained 모델들이 다양하게 있길래 여러 개를 적용하면서 실험해보고 있다..! object detection 대회를 통해서 어떤 문제를 풀고 어떻게 해결해 나갈 수 있을지 고민이 필요한 듯...!

... 오늘은 여기까지...

728x90
Comments