10. Self-Supervised Learning

게시 2024/06/10 업데이트 2024/06/28

By UI-JIN KIM 1 분읽는 시간

Self-Supervised with Transformer

(Self-Supervised Vision Transformer)

Reconstruction(이미지 복원을 통한 학습)

(Bert Pre-Training of Image Transformer)

Mask Prediction(마스킹된 토큰을 예측함으로써 학습)

(Masked Autoencoders)

Reconstruction(이미지 복원을 통한 학습)

이미지와 Caption을 같이 학습하는 모델
Caption이 가지는 Sematic Density덕분에 Contrastive Learning이나 Classification Pretraining에 비해 더 효과적임을 증명

Contrastive Learning과 같이 학습한다.
이미지와 Text에대해 Matching되는 부분은 Positive, 그렇지 않은 부분에 대해서는 Negative Sample로써 동작한다.

-> 매우 많은데이터가 필요하다는 단점

pre-defined word embedding이 필요함