hye-log

[부스트캠프 AI Tech]WEEK 10_DAY 47 본문

Boostcourse/AI Tech 4기

[부스트캠프 AI Tech]WEEK 10_DAY 47

iihye_ 2022. 11. 24. 19:12

⚽ 개별학습


[8] Advanced Object Detection 2

2. M2Det

1) Overview

(1) 여러 크기의 물체를 탐지하기 위해서 Image Pyramid, Feature Pyramid와 같은 방법을 사용

(2) Feature Pyramid의 한계

- classification을 위해 설계되어 detection에는 적합하지 않음

- backbone network가 single level 정보만 나타냄

(3) M2Det

- Multi-level, multi-scale Feature Pyramid(MLFPN) 제안

- MLFPN + SSD => M2Det 라는 1 stage detector 제안

 

2) Architecture

(1) Overall Architecture

Zhao, Q., Sheng, T., Wang, Y., Tang, Z., Chen, Y., Cai, L., & Ling, H. (2019, July). M2det: A single-shot object detector based on multi-level feature pyramid network. In  Proceedings of the AAAI conference on artificial intelligence  (Vol. 33, No. 01, pp. 9259-9266).

- Backbone - MLFPN(FFM, TUM, SFAM) - SSD 로 구성

- Backbone에서 두 개의 stage에서 feature map을 골라 concat한 결과인 base feature를 FFM1라고 함

- FFM1을 TUM의 통과시켜 TUM의 decoder로부터 가장 큰 feature map을 뽑아냄

- 이전 TUM 출력 중 가장 큰 feature map을 base feature와 함께 FFMv2로 만들고 TUM을 통과시킴

- 이 과정을 n번 반복하면 마지막 feature map은 deep한 feature map을 얻을 수 있음

- SFAM을 거쳐 feature를 합친 후 SSD 를 통과시킴

(2) FFM(Feature Fusion Module)

- FFMv1 : 서로 다른 scale의 두 개의 feature map을 합친 base feature를 만듦

(3) TUM(Thinned U-shape Module)

- Encoder-Decoder 구조

- Encoder에서는 점점 작은 scale의 feature map, Decoder에서는 점점 큰 scale의 feature map을 만듦

- Decoder의 출력은 multi-scale features

(4) FFM(Feature Fusion Module)

- FFMv2 : base feature와 이전 TUM 출력 중에서 가장 큰 feature concat

- 합쳐준 features는 다음 TUM 입력으로 들어감

(5) SFAM(Scale-wise Feature Aggregation Module)

- TUMs에서 생성된 multi-level mult-scale을 합치는 과정

- 동일한 크기를 가진 feature를 연결

(6) SSD

- SSD의 마지막 단인 detection을 통해 detection을 수행함

 

3. CornerNet

1) Overview

(1) Anchor box의 단점

- Anchor box의 수가 엄청 많음(배경보다 객체가 적은 class imbalance)

- Anchor box 사용 시 하이퍼파라미터를 고려해야 함(개수, 사이즈, 비율 등)

(2) CornerNet

- Anchor box가 없는 1 stage detector

- center(중심점)이 아닌 corner(모서리)를 사용 -> 좌측 상단(top-left), 우측 하단(bottom-right) 점 이용

2) Architecture

(1) Overall Architecture

Law, H., & Deng, J. (2018). Cornernet: Detecting objects as paired keypoints. In  Proceedings of the European conference on computer vision (ECCV)  (pp. 734-750).

- Image를 Hourglass Network에 통과시켜 feature map을 추출함

- feature map을 두 개의 prediction module에 통과시킴

- prediction module에서는 heatmap(h×w×class), embeddings(top-left와 bottom-right을 mapping), offsets를 출력함

(2) Hourglass

- human pose estimation task에서 사용하는 모델

- encoding part : feature 추출(Conv layer + Maxpooling layer)

- decoding part : encoding 과정에서 scale 별로 추출한 feature 조합

(3) Prediction Module

- backbone에서 top-left나 bottom-right 정보를 예측함

- 2개의 heatmap(top-left, bottom-right)을 통해서 예측



⚽ 오늘의 회고

오전에는 강의 듣고 모델 돌려보고 실험 결과 정리하고..!! 오후에는 점심 먹고 부캠 처음으로 외출 누르고 밖에 나갔다 왔따..ㅎㅎ 사실 외출도 다른게 아니라 국민취업지원제도 대면상담 받으러 갔다왔다! 버스 타고 20분 정도 거리에 있는 취업센터에 처음 갔는데, 친절하고 꼼꼼하게 제도 설명해주셔서 잘 듣고 왔따! 뭔가 이제야 본격적으로 취업 준비를 하는 느낌? 취업하고 싶은 회사가 있거나 지원서를 낼 때 알려달라고 하시는데, 취업에 대한 이야기를 나눌 수 있는.. 취업 준비를 도와준다는 자체가 뭔가 든든한 느낌이었다. 대면 상담도 하고 제도 설명도 들으니까 이제 취업을 꼭 해야만 하는... 상황이 되어버렸다.. 부캠 끝나고 꼭 취뽀한다 파이링🚀

728x90
Comments