- Today
- Total
hye-log
[๋ถ์คํธ์บ ํ AI Tech]WEEK 05_DAY 23 ๋ณธ๋ฌธ
๐ฅ ๊ฐ๋ณํ์ต
[9] Multi-modal
1. Overview of multi-modal learning
1) Multi-modal learning : ๋ค์ํ ๋ฐ์ดํฐ type, ํํ, ํน์ฑ์ ๊ฐ๋ ๋ฐ์ดํฐ๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ
2) challenge
- ๋ฐ์ดํฐ์ ํํ๊ฐ ๋ค์ํ๊ธฐ ๋๋ฌธ์ ํํ ๋ฐฉ์๋ ๋ค๋ฆ
- ์๋ก ๋ค๋ฅธ modality์์ ์ค๋ ์ ๋ณด์ ์์ด unbalanceํจ
- ์ฌ๋ฌ modality๋ฅผ ์ฌ์ฉํ ๋ biased๋จ
3) maching, translating, referencing ๋ฑ ๋ค์ํ ๋ฐฉ๋ฒ์ผ๋ก multi-modal learning ์ฌ์ฉ
2. Multi-modal tasks(1) - Visual data & Text
1) Text embedding
- character๋ ML์์ ์ฌ์ฉํ๊ธฐ ์ด๋ ค์ -> dense vector๋ก ํํ
- ์ผ๋ฐํ ๋ฅ๋ ฅ์ด ์์
์) man - woman -> king - queen
- skip-gram model : ๋จ์ด ์ฌ์ด์ ๊ด๊ณ์ฑ์ ํตํด ์ฃผ๋ณ N๊ฐ์ ๋จ์ด๋ฅผ ์์ธก
2) Joint embedding
(1) Image tagging
- ์ฃผ์ด์ง image์์ tag๋ฅผ ์์ฑํ๊ฑฐ๋ tag๋ฅผ ์ด์ฉํด์ image ์์ฑ
- image์ text๋ฅผ ๊ฐ์ dimension์ผ๋ก ํํํด์ ๋น์ทํ๋ฉด embedding vector ํฌ๊ธฐ๊ฐ ์๊ณ , ๋ค๋ฅด๋ฉด embedding vector ํฌ๊ธฐ๊ฐ ํฌ๊ฒ ํํ
- ๊ฐ์ embedding space์ ๋งค์นญ์์ผฐ์ ๋ text์ image๊ฐ pair๋ฉด distance๋ฅผ ์ค์ด๊ณ , pair๊ฐ ์๋๋ฉด distance๊ฐ ํฌ๋๋ก metric learning ์งํ
(2) Image&food recipe retrieval
- recipt๋ฅผ RNN์ ํตํด์ fixed vector๋ฅผ ๋ฝ์๋
- cosine similarity loss๋ฅผ ์ด์ฉํ์ฌ recipt๊ณผ image๊ฐ ์ฐ๊ด์ด ๋์ผ๋ฉด loss๋ฅผ ํฌ๊ฒ, ์ฐ๊ด์ด ๋ฎ์ผ๋ฉด loss๋ฅผ ๋ฎ๊ฒ ํจ
- semantic regularization loss๋ฅผ ์ด์ฉํ์ฌ high-level semantics๋ฅผ ํตํฉ
3) Corss modal translation
(1) Image captioning
- image๋ CNN์ ํตํด์ ํ์ตํ๊ณ , sentence๋ RNN์ ํตํด์ ํ์ตํจ
(2) Show and tell
- Encoder๋ ImageNet ๊ธฐ๋ฐ์ pre-trained CNN model์ ์ฌ์ฉ
- Decoder๋ LSTM module ์ฌ์ฉ
(3) Show, attend and tell
- ์ฌ๋์ ์์ ์ด ์์ง์ด๋ ๊ฒ(attention)์ฒ๋ผ ํน์ง์ ์ธ ๋ถ๋ถ๋ถํฐ ๋ณด๋ ๊ฒ์ด ํน์ง
- image๋ฅผ CNN์ ํตํด์ ์ป์ heatmap๊ณผ RNN์์ ๋์จ attention grid๋ฅผ ํฉ์น vector๋ฅผ ์ถ๋ ฅํจ
(4) Visual quetion answering
- Image stream์์ ์์์ feature๋ฅผ ์ถ์ถํ๊ณ , Question stream์์ text sequence๋ฅผ RNN์ผ๋ก encoding
3. Multi-modal tasks(2) - Visual data & Audio
1) Sound representation
- Waveform -> Power spectrum -> Spectogram
- Fourier transform : waveform์ power spectrum์ผ๋ก ๋ณํ -> ์๊ฐ ์ถ ๊ธฐ์ค์ ์ฃผํ์ ์ถ ๊ธฐ์ค์ผ๋ก ๋ฐ๊พธ์ด์ ์ผ๊ฐํจ์๊ฐ ์ผ๋ง๋ ๋ค์ด์๋์ง ํ์
- spectogram : ์๊ฐ์ ๋ฐ๋ผ ์ฃผํ์ ์ฑ๋ถ์ด ์ด๋ป๊ฒ ๋ณํ๋์ง ํ์ ๊ฐ๋ฅ
2) Joint embedding
(1) Scene recognition by sound
- SountNet :๋น๋์ค์ RGB frames๋ก๋ถํฐ audio reprentation์ ํ์ตํจ
3) Cross modal translation
(1) Speech2Face
- ์์ฑ์ ๋ฃ๊ณ ์ผ๊ตด์ ์์ํ๋ ๋ชจ๋ธ
(2) Image-to-speech synthesis
- image๋ฅผ ๋ณด๊ณ speech๋ฅผ ๋ง๋ค์ด ๋
- Image๋ฅผ CNN ๋ชจ๋ธ์ ๋ฃ๊ณ unit์ ์ถ๋ ฅํ๊ณ , unit์ TTS(Text-to-Speech)์ ๋ฃ์ด speech๋ฅผ ์ถ๋ ฅํจ
4) Cross modal reasoning
(1) Sound source localization
- image์์ ์๋ฆฌ๊ฐ ์ด๋์์ ๋๋์ง ์ฐพ๊ธฐ
- image์ audio๋ฅผ CNN์ ๋ฃ๊ณ spatial feature๋ฅผ ์ ์งํ์ฌ localization score๋ฅผ ์ถ๋ ฅํจ
๐ฅ ์ค๋์ ํ๊ณ
์ค๋์ ๋ฉํ ๋ง์ ์์! ๋ฉํ ๋ง ๋์๋ ์ง๋ก ๊ด๋ จ๋ ๊ณ ๋ฏผ ํ๋๋ฅผ ํด๊ฒฐ(?)ํด์ฃผ์๊ณ , ํ ๊ฐ์ง ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํด์ฃผ์ จ๋ค. ์ด๋ป๊ฒ ์ ํํ๊ฒ ๋์๋์ง, ๋ ผ๋ฌธ์์ ์ด๋ค ๋ถ๋ถ์ ์ฃผ์ ๊น๊ฒ ๋ด์ผํ๋์ง, ์ด๋ป๊ฒ ๋ ผ๋ฌธ์ ์์ ์ ๋ถ์ผ์ ์ ์ฉํ ์ ์๋์ง๊น์ง ์๋ ค์ฃผ์ ์ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ์์ ์ด๋์ ์ฃผ๋ชฉํด์ ๋ด์ผํ๋์ง๋ฅผ ์ ์ ์์๋ค. ์คํ์๋ ๊ฐ์ ํ๋๋ฅผ ๋ฃ๋๋ฐ, multi-modal์ด ๋ค์ด๋ณด๊ธฐ๋ง ํ์ง ์ด๋ก ์ ์ผ๋ก ๊ณต๋ถํ๋๊ฑด ์ฒ์์ด๋ผ ์ด๋ ต๊ธฐ๋ ํ์ง๋ง ์๊ฐ๋ณด๋ค ๋ค์ํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ํ์ต์ ์ํค๊ณ ์ ๋ณด๋ฅผ ์ป๋๋ค๋ ๊ฒ์ด ์๋ก์ ๋ค. ์คํ์ ํผ์ด์ธ์ ๋์๋ ๊ฐ์ ํ ํ์ฌ ์ด๋ป๊ฒ ๊ตฌ์ฑํ๊ณ , ์ด๋ค ์ฃผ์ ๋ก ํ ์ง๋ฅผ ๊ณ ๋ฏผํ๋๋ฐ, ์ฌ์ค ์ฐ๋ฆฌ๋ ์ด์ ๋ง CV๋ฅผ ์์ํ ๋จ๊ณ์ผ ๋ฟ์ธ๋ฐ ํ ์ ํ๋ ๊ฒ์ ๋๋ฌด ์ด๋ ต๋ค๋ ์ด์ผ๊ธฐ๋ฅผ ๊ณตํต์ ์ผ๋ก ํ๋ค... ํผ์ด์ธ์ ๋์๋ ํ ์ฃผ๋ฅผ ๋ง๋ฌด๋ฆฌ ํ๋ ํ๊ณ ๋ฅผ ์์ฑํ๊ณ , ๋ค์์ฃผ๋ถํฐ ์์๋๋ ๊ฒฝ์ง๋ํ ๊ด๋ จํด์ ์ด๋ป๊ฒ ๊น์ ์ด์ํ ์ง๋ฅผ ์ด์ผ๊ธฐํ๋ค. ์ฌ์ค ์์ง ์๋ฌด๊ฒ๋ ์๋ ๊ฒ ์์ด์ ์ด๋ค ๊ฒ์ด ์ ๋ต์ผ์ง ๋ชจ๋ฅด๊ฒ ์ง๋ง ๋ค๋ค ์ฒ์ํ๋ ํ๋ก์ ํธ์ธ๋งํผ ๋ง์ด ๋ถ๋ชํ๋ณด๊ณ ๋ฐฐ์๋ณด๋ ๊ฒ์ ๊ณต๊ฐํ๋ค. ์ด๋ฒ ํ ์ฃผ๋ ๋ฌด์ฌํ ์ง๋๊ฐ๊ณ , ๋ค์ ์ฃผ ๋ํ๋ ์ด์ฌํ ํด๋ณด์!!!!
'Boostcourse > AI Tech 4๊ธฐ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๋ถ์คํธ์บ ํ AI Tech]WEEK 06_DAY 25 (0) | 2022.10.25 |
---|---|
[๋ถ์คํธ์บ ํ AI Tech]WEEK 06_DAY 24 (0) | 2022.10.25 |
[๋ถ์คํธ์บ ํ AI Tech]WEEK 05_DAY 22 (1) | 2022.10.20 |
[๋ถ์คํธ์บ ํ AI Tech]WEEK 05_DAY 21 (0) | 2022.10.20 |
[๋ถ์คํธ์บ ํ AI Tech]WEEK 05_DAY 20 (0) | 2022.10.20 |