- Today
- Total
hye-log
[๋ถ์คํธ์บ ํ AI Tech]WEEK 04_DAY 18 ๋ณธ๋ฌธ
๐ ๊ฐ๋ณํ์ต
[5] Object Detection
1. Object Detection
1) classfication + box localization(bounding box)
2) ์์จ์ฃผํ, OCR ๋ฑ์์ ํ์ฉ
2. Two-stage detector
1) R-CNN
- ์์์์ region proposal์ ์ ์ํ ํ CNN ๋ชจ๋ธ์ ํตํด object detection ์ํ
- Input์ผ๋ก image๋ฅผ ๋ฃ์
- ์ฝ 2000๊ฐ ์ดํ๋ก region proposal์ ๊ตฌํจ
- ๊ฐ region proposal์ ์ฌ์ด์ฆ(224×224)์ ๋ง๊ฒ ์๋ผ์ CNN์ ํ์
- classify(๋ถ๋ฅ)ํจ
- ํ๊ณ : region proposal ํ๋์ฉ CNN์ ํ์ฐ๋ค๋ณด๋ ์๋๊ฐ ๋๋ฆฌ๊ณ ์ฑ๋ฅ ํฅ์์ ํ๊ณ๊ฐ ์์
2) Fast R-CNN
- ์์ ์ ์ฒด์ ๋ํ feature ์ถ์ถ ํ ์ฌํ์ฉํด์ ์ฌ๋ฌ object detection ์ํ
- input image์์ conv feature map์ ์ถ์ถ
- feature map์ ํตํด ROI(Region of Interest)์ ํด๋นํ๋ feature ์ถ์ถ
- ๊ฐ๊ฐ์ ROI์์ class์ box ์์ธก
- ์ฅ์ : feature map์ผ๋ก R-CNN์ ๋นํด ์ฑ๋ฅ ํฅ์์ ์ด๋ฃธ
- ํ๊ณ : ๋ฐ์ดํฐ๋ง์ผ๋ก ์ฑ๋ฅ์ ๋์ด๋ ๋ฐ์๋ ํ๊ณ๊ฐ ์์
3) Faster R-CNN
- neural region proposal๋ก end-to-end ๋ฐฉ์์ object detection ์ํ
- feature map์์ Region Proposal Network(RPN)์ผ๋ก ์ฌ๋ฌ proposal์ ์ ์ํ ํ ROI pooling์ ์ํ
4) R-CNN family ์์ฝ
3. Single-stage detector
0) one-stage vs. two-stage
- one-stage detector : ์ ํ๋๋ ๋จ์ด์ง์ง๋ง ์๊ฐ์ด ๋จ์ถ๋จ(์ค์๊ฐ ์ฒ๋ฆฌ์ ์ ์ฉ)
- two-stage detector : ์ ํ๋๊ฐ ๋์ง๋ง ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆผ(R-CNN family์ ๊ฐ์ด ๋ช๋ช sampling ๋ region์ ์ ๋ณํ์ฌ detection ์งํ)
1) YOLO(You Only Look Once)
- input ์ด๋ฏธ์ง๋ฅผ S×S grid๋ก ๋๋ ํ bounding box๋ฅผ ์ฐพ๊ณ , class score๋ฅผ ๊ตฌํจ
- bounding box ์์ญ์ class score๋ฅผ ์ต์ข ์ ์ผ๋ก ์ถ๋ ฅ
- ํ๊ณ : ๋ง์ง๋ง์๋ง classification์ ํ๊ธฐ ๋๋ฌธ์ localization ์ ํ๋๋ ๋จ์ด์ง
2) SSD(Single Shot multibox Detector)
- multi-scale object๋ฅผ ์ ์ฒ๋ฆฌํ๊ธฐ ์ํด์ ์ค๊ฐ feature map์ ํด์๋์ ๋ง๊ฒ ์ถ๋ ฅํจ
4. Two-stage detector vs. One-stage detector
1) Focal loss
- one-stage detector๋ ๋ชจ๋ ์์ญ์์ loss๋ฅผ ๊ณ์ฐํจ
- ์ผ๋ฐ์ ์ผ๋ก ์์์์ object ์์ญ๋ณด๋ค background ์์ญ์ด ๋์ -> class imbalance ๋ฐ์
- cross entropy์ ํ์ฅ ๋ฒ์ ์ผ๋ก, ์ ๋ต์์ ๋ฉ์๋ก ๊ฐํ weight, ์ ๋ต์์ ๊ฐ๊น์ธ์๋ก ์์ weight๋ฅผ ๋ถ์ฌ
2) Retinanet
- one-stage network
- Feature Pyramid Networks(FPN)์ ํตํด์ low level์ ํน์ง๊ณผ high level์ ํน์ง์ ๋ชจ๋ ๊ฐ์ ธ๊ฐ
- class์ box prediction branches๋ฅผ ์ฑํ
5. Detection with Transformer
0) Transformer
- NLP์์๋ง ์ฌ์ฉํ๋ transformer๋ฅผ computer vision task์๋ ์ ์ฉํ๋ ค๋ ์์ง์์ด ์์
- ViT(Vision Transformer) by Google
- DeiT(Data-efficient image Transformer) by Facebook
- DETR(DEtection TRansformer) by Facebook
1) DETR
- transformer๋ฅผ object detection์ ์ ์ฉํ ์ฌ๋ก
- CNN๊ณผ positional encoding์ผ๋ก input token์ ๋ฃ๊ณ , object queries๋ฅผ ํตํด ๋ฌผ์ฒด๊ฐ ์๋์ง(class/no object), ์๋ค๋ฉด ์ด๋์ ์๋์ง(box)๋ฅผ ์์ธกํจ
๐ ์ค๋์ ํ๊ณ
๋ฐ์ผ๋ฆฌ ์คํฌ๋ผ ์๊ฐ์๋ ํ๋ฃจ๋์ ๋ชฉํ๋ ์ ํ๊ณ ์ด์ ์ฌ๋์ ์ฌ๋ ธ๋ ๋ฌธ์ ํ๋์ ๋ํด์ ์ด์ผ๊ธฐํ๋ค. ๊ณผ์ ์์ ๋ ๋ชจ๋ธ ํ์ตํด๋ณด๋ ๋ฌธ์ ์๋๋ฐ ๊ฐ์ ๋ฐ๊ฟ ๋๋ง๋ค ๋ค๋ฅธ ๊ฒฐ๊ณผ๊ฐ ๋์์ ์ด๋ค ๊ฒ์ด ๋ฌธ์ ์์ ์๋ํ๋ ๋ฐ์ธ์ง ์ ๋ชจ๋ฅด๊ฒ ์ด์ ์ง๋ฌธํ๋ค. ๊ฐ์ ํ๋ ๋ฃ๊ณ ์ ์ฌ ๋จน๊ณ ๋ค์ ๋์์์ ๊ฐ์ ๋ด์ฉ ์ ๋ฆฌํ๋ค. ์ด๋ฒ ์ฃผ ๋ด๋ด ๋ญ๊ฐ ์ซ๊ธฐ๋ฏ์ด ๊ณต๋ถํ๋๋ผ ๊ฐ์ ๋ฃ๊ณ ๋ฐ๋ก ์ ๋ฆฌํ์ง ๋ชปํ๋๋ฐ, ํ์คํ ๊ฐ์ ๋ฃ๊ณ ๋ฐ๋ก ์ ๋ฆฌํ๋ ๊ฒ์ด ๋ ์ ๋ฆฌํ๊ธฐ ํธํ ๊ฒ ๊ฐ๋ค. ๊ธ์์ผ์ 3์๊ฐ ๋์ ์ค.. ํ๋ ๋ ...! ์คํ์ ํผ์ด์ธ์ ์ ์์์ผ๋ก ํผ์ด์ธ์ , ๋ง์คํฐ ํด๋์ค๊น์ง ์์ฃผํ๋ค! ์คํ์ ํผ์ด์ธ์ ๋๋ ์๋ฌด๋๋ ์์ฆ ์ต๋ ๊ด์ฌ์ฌ๊ฐ ํ ๋น๋ฉ์ด๋ค๋ณด๋ ํ ์ด๋ป๊ฒ ๊ตฌ์ฑํ๊ณ ์๋์ง, ์ด๋ค ๋ถ์ผ์ ๊ด์ฌ์ด ์๋์ง ์ด์ผ๊ธฐํ๋ค. ์๋ฌด๋๋ ๊ฐ์ฅ ๊ฑฑ์ ๋๋ ๊ฑด ์ทจ์ ๊ณผ ํ์ฃผ..๊ฐ ์๋๊น ์ถ๋ค..(ใ ใ ) ํผ์ด์ธ์ ๋์๋ ์คํ์ ํผ์ด์ธ์ ๋ ์ด๋ค ์ด์ผ๊ธฐ ๋๋์๋์ง ์ด์ผ๊ธฐํ๊ณ , ์ผ์ฃผ์ผ ํ๊ณ ๋ก ์์ฑํ๋ค. ๋ง์คํฐํด๋์ค์์๋ ๊ณผ์ ๋ฌธ์ ์ ๋ํ ํด์ค์ ์งํํด์ฃผ์ จ๋๋ฐ ๊ณผ์ ์์ ์๋ํ๊ณ ์ ํ๋ ๋ฐ๋ค์ ์ ์ ๋ฆฌํด์ ๋ง์ํด์ฃผ์ ์ ๋์์ด ๋ง์ด ๋์๋ค! ๋ฒ์จ ๋ถ์บ ์์ํ์ง 4์ฃผ๋ ์ง๋ฌ๋ค. ์ฃผ๋ง์ ์ฌ์ง ๋ชปํ์ง๋ง(...) ๋ถ์บ ์๋ ์ฝํ ๋ก ๊ฐ๋ํ ์ฃผ๋ง์ ๋ณด๋ด๊ณ 5์ฃผ์ฐจ๋ ์ด์ฌํ ๋ฌ๋ ค๋ณด๋๊ฑธ๋ก ๊ฐ์ฆ์๐
+ TMI
๋น๋ฃจํ ๋ธ๋ก๊ทธ์ ๋ถ์บ ํ๊ณ ๋ก ๋๋ถ์ ๋ฐฉ๋ฌธ์๊ฐ ์ฌ๋๋ค 300 ์ด๋ผ๋ ๋ณ๊ฑฐ ์๋ ๋ธ๋ก๊ทธ์ ์ฐพ์์์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค(๊พธ๋ฒ )
'Boostcourse > AI Tech 4๊ธฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๋ถ์คํธ์บ ํ AI Tech]WEEK 05_DAY 20 (0) | 2022.10.20 |
---|---|
[๋ถ์คํธ์บ ํ AI Tech]WEEK 05_DAY 19 (0) | 2022.10.20 |
[๋ถ์คํธ์บ ํ AI Tech]WEEK 04_DAY 17 (0) | 2022.10.14 |
[๋ถ์คํธ์บ ํ AI Tech]WEEK 04_DAY 16 (0) | 2022.10.13 |
[๋ถ์คํธ์บ ํ AI Tech]WEEK 04_DAY 15 (0) | 2022.10.12 |