Paper
Flamingo: a Visual Language Model for Few-Shot Learning (a.k.a. Flamingo)
Speaker
@SoongE
Summary

Key Point
- Powerful connection between pre-trained Vision and Language
- Using visual texture data
- Any input using Preceiver model
- Well implemented on several tasks
Methods
strengths and weaknesses
- Strengths
- 많은 downstream task에서 좋은 성능을 보임
- Weaknesses
- LM의 side effect를 모두 가져온다.
- Classification은 CLIP보다 좋지 않다.
- Few-shot이 아닐 경우에는 각자의 모델이 더 좋은 성능을 낼 수 있다.
- 학습에 사용한 dataset이 매우 크고, 모델 자체의 사이즈가 매우 커서 공정한 비교가 힘들다.
Paper
Flamingo: a Visual Language Model for Few-Shot Learning (a.k.a. Flamingo)
Speaker
@SoongE
Summary

Key Point
Methods
Freezing Vision and Language model
Peceiver Resampler

Gated Cross-Attention

Train on mixture of datasets
strengths and weaknesses