- Today
- Total
hye-log
[부스트캠프 AI Tech]WEEK 10_DAY 46 본문
⚽ 개별학습
[8] Advanced Object Detection 2
1. YOLO v4
1) Overview
(1) Background
- 최신 Detection에서 정확도는 크게 향상했지만, 많은 GPU 필요
- 실시간 task에는 부적합
- 다른 detector보다 빠르면서 정확도가 높음
(2) Contribution
- 하나의 GPU에서 훈련할 수 있는 빠르고 정확한 Object Detector
- BOF(Bag of Freebies, inference 비용 유지, 정확도 향상), BOS(Bag of Specials, inference 비용 높임, 정확도 향상) 실험을 통해서 증명
- GPU 학습에 효율적이고 적합하도록 방법들을 변형
2) Related work
(1) Object Detection Model
- Input : Image, Patches, Image Pyramid, ...
- Backbone : (GPU) VGG, Resnet, ResNext, ... / (CPU) SqueezeNet, MobileNet, ShuffleNet, ...
- Neck : (Additional blocks) SPP, ASPP, ... / (Path-aggregation blocks) FPN, PAN, NAS-FPN, BiFPN, ...
- Head : (Dense Prediction - one stage) RPN, YOLO, SSD, RetinaNet, CornerNet, FCOS, ... / (Sparse Prediction - two stage) Faster R-CNN, R-FCN, Mask R-CNN, ...
(2) Bag of Freebies : Inference 단계에서 cost를 늘리지 않는 방법
- Data Augmentation : Phtometric Distortions, Geometric Distortions, Cutout, Random erase, Mixup, Cutmix, GAN
-> CutMix : 이미지의 패치 영역만큼 잘라내서 다른 이미지에 붙여 넣고, ground truth 라벨도 패치 영역만큼 섞는 방법
- Semantic Distribution Bias : Hard Negative Mining, OHEM, Focal Loss, Label Smoothing
-> Label Smoothing : 특정 라벨(배경)이 많은 경우 해결하는 방법
- Bounding Box Regression : MSE, GIoU, DIoU, CIoU
-> GIoU : IoU 기반 loss
(3) Bag of Specials : Inference 단계에서 cost가 발생하지만 성능 향상에 도움이 됨
- Enhancement of Receptive field : Spatial Pyramid Pooling(SPP), Atrous SPP(ASPP), Receptive Field Block(RFB)
- Attention Module : Squeeze-and-Excitation(SE), Spatial Attention Module(SAM)
- Feature Integration : Feature Pyramid Network(FPN), Scale-wise Feature Aggregation Module(SFPM), Adaptively Spatial Feature Fusion(ASFF), BiFPN
3) Architecture
(1) Detector의 고려사항
- 작은 물체를 검출 -> 큰 네트워크 입력 사이즈 필요
- 네트워크 입력 사이즈의 증가 -> 큰 receptive field 필요 -> 많은 레이어 필요
- 하나의 이미지에서 다양한 사이즈의 물체 검출 -> 큰 용량의 모델 필요 -> 많은 파라미터 필요
(2) Overall Architecture
(3) Cross Stage Partial Network(CSPNet)
- 기존 DenseNet은 가중치를 업데이트할 때 gradient 정보를 재사용함- gradient 중복 사용을 방지함 -> 정확도 유지하면서 경량화, 메모리 cost 감소
(4) Additional Improvements
- 새로운 data augmentation 방법 : Mosaic, Self-Adversarial Training(SAT)
-> Mosaic : 4장의 이미지를 하나의 이미지로 합치는 방법
-> Self-Adversarial Training : 1 stage에서는 이미지 안에 객체를 없애고, 2 stage에서는 변형된 이미지를 가지고 학습
- 기존 방법 변형 : modified SAM, modified PAN, Cross mini-Batch Normalization(CmBN)
⚽ 오늘의 회고
Swin transformer 기반으로 학습해보고 있는데, pretrained 모델들이 다양하게 있길래 여러 개를 적용하면서 실험해보고 있다..! object detection 대회를 통해서 어떤 문제를 풀고 어떻게 해결해 나갈 수 있을지 고민이 필요한 듯...!
... 오늘은 여기까지...
'Boostcourse > AI Tech 4기' 카테고리의 다른 글
[부스트캠프 AI Tech]WEEK 10_DAY 48 (0) | 2022.11.27 |
---|---|
[부스트캠프 AI Tech]WEEK 10_DAY 47 (0) | 2022.11.24 |
[부스트캠프 AI Tech]WEEK 10_DAY 45 (0) | 2022.11.23 |
[부스트캠프 AI Tech]WEEK 10_DAY 44 (0) | 2022.11.22 |
[부스트캠프 AI Tech]WEEK 09_DAY 43 (0) | 2022.11.18 |