hye-log

[부스트캠프 AI Tech]WEEK 10_DAY 44 본문

Boostcourse/AI Tech 4기

[부스트캠프 AI Tech]WEEK 10_DAY 44

iihye_ 2022. 11. 22. 04:03

⚽ 개별학습


[7] Advanced Object Detection 1

1. Cascade RCNN

1) Contribution

(1) Faster-RCNN

- 입력 image를 ConvNet에 통과시킨 뒤 feature map을 생성

- RPN을 통해서 나온 Region proposal을 feature map에 projection 하여 RoI를 뽑아냄

- RoI pooling을 통해서 고정된 feature vector로 최종적으로 RoI가 어떤 object인지, 어디에 있는지 classification 가능

- 학습해야 하는 Network : backbone(ConvNet) -> Region Proposal Network(RPN) -> Head Network

- RPN : 0.7 이상의 IoU를 Positive sample, 0.3 미만의 IoU를 Negative sample로 정함

- Head : 0.5 이상의 RoI를 Positive sample, 0.5 미만의 RoI를 Negative sample로 정함 -> 왜 0.5로 정하지?

(2) Motivation

Cai, Z., & Vasconcelos, N. (2018). Cascade r-cnn: Delving into high quality object detection. In  Proceedings of the IEEE conference on computer vision and pattern recognition  (pp. 6154-6162).

- IoU threshold에 따라 학습되었을 때 결과가 다름

-> Input IoU가 높을수록, IoU threshold가 높은 model이 좋은 결과를 냄

-> AP IoU threshold가 높을수록, IoU threshold가 높은 model이 좋은 결과를 냄

- high quality를 위해서는 IoU threshold를 높여야 하지만, 단순히 IoU threshold를 높이는 것에는 성능이 하락하는 문제가 있음

 

2) Method

Cai, Z., & Vasconcelos, N. (2018). Cascade r-cnn: Delving into high quality object detection. In  Proceedings of the IEEE conference on computer vision and pattern recognition  (pp. 6154-6162).

(1) Faster R-CNN

- 입력 이미지(I)가 conv(backbone network)를 통과함

- conv를 통과하여 나온 RPN을 통해서 H0 결과를 뽑아냄

- H0은 Class head(C0)와 Box head(B0)를 통과해 region proposal이나 학습이 이루어짐

- B0에서 projection을 통과한 H1를 Class head(C1), Box head(B1)에 넣어줌

(2) Iterative BBox at inference

- B1을 다시 projection에 통과하고 B2를 만들어냄

- B2를 다시 projection에 통과하고 B3를 만들어냄

(3) Intergral Loss

- IoU threshold가 다른 Classifier C1, C2, C3를 학습

(4) Cascade R-CNN

- (2), (3) 방법을 합친 것

- IoU threshold가 다른 여러 개의 RoI head로 학습함

(5) Summary

- Bbox pooling을 반복 수행하는 경우 성능 향상 -> (2) Iterative BBox at inference

- IoU threshold가 다른 classifier가 반복될 때 성능 향상 -> (3) Integral Loss

- IoU threshold가 다른 RoI head를 cascade로 쌓을 시 성능 향상 -> (4) Cascade

 

2. Deformable Convolution Networks

1) Contribution

- CNN의 문제점 : n×n filter의 geometric 한계가 존재함

- 기존의 해결 방법 : geometric augmentation, geometric invariant feature engineering

2) 제안하는 Module : Deformable convolution

 

2) Method

(1) Deformable Convolution

Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., & Wei, Y. (2017). Deformable convolutional networks. In  Proceedings of the IEEE international conference on computer vision  (pp. 764-773).

- (a) 일반적인 convolution

- (b) deformable convolution에서 사용하는 랜덤한 offset을 부여한 convolution

- (c), (d) (b)의 특별한 경우

Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., & Wei, Y. (2017). Deformable convolutional networks. In Proceedings of the IEEE international conference on computer vision (pp. 764-773).ISO 690

- convolution neural network의 일정한 패턴으로 geometric transformations에 한계가 있음

- offset을 학습시켜 위치를 유동적으로 변화함

- object detection, segmentation에서 좋은 효과를 보임



⚽ 오늘의 회고

10주차의 시작! 오전에는 dataset이랑 model 관해서 이야기하면서, baseline으로 어떤 코드를 사용할지, config 파일에 대해서 의논했다. 깃허브도 어떻게 활용하면 좋을지도...!! wandb 연결은 지난 주에 했지만 팀 wandb로 데이터가 잘 넘어가는지 확인해보고, 테스트 실험 진행하면서 성능도 살펴보았다. 지난주 마클을 하고 나니까 config 파일을 어떻게 다루어야 하는지 약간(?) 감이 생겨서 config 파일도 이것저것 수정해보았다. 피어세션 때에도 실험 관련 이야기 하고, 노션에 어떻게 정리할지, 멘토님이 공유해주신 양식을 토대로 우리 팀만의 노션에 실험 결과도 정리하는걸로..😊

728x90
Comments