논문명: Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling
논문링크: https://arxiv.org/abs/2102.06183
읽는 이유
- baseline 으로 자주 등장함.
- VindLU 라는 논문이 있는데, video retrieval 분야의 모델을 심층 분석하였음. 그 논문의 이해를 돕기 위해 읽고자 함.
초록
: 21년 논문임을 감안해서 읽어야 한다.
- 기존 Mutimodal task 에서 쓰이는 모델들은 각 분야(text, video)에서 학습한 모델들을 사용해왔다.
- 즉, multimodal task 의 관점에선 suboptimal 된 상태이며, 특히 video extractor는 high computational overload 을 일으킬 수 있다.
- 그러므로 ClipBERT 라는 모델을 제시하는데, sparse sampling 을 통해 위 문제를 해결한다.
- sparse sampling: full video 를 사용하지 않고, 일부만 뽑아서 사용하는 방식
본문
기존과 어떤 점이 다른가?
1. 학습 방식이 다르다
- 위는 기존 방식, 아래는 ClipBERT 방식이다.
- 문제: full video 를 다 사용하는 것은 high computational overload 를 일으킨다.
- 해결법: sparse sampling 을 통해 성능은 유지하면서도 계산량을 감소시킨다.
- 'stop gradient' 라는 표현이 있는데, 논문에서 별 다른 언급이 없어서 무시하는 게 좋겠다.
sparse sampling
- full video: 전체 비디오를 말함. 가령, 3분짜리 비디오.
- clip: 짧은 비디오를 말함.
- 방법: full video에서 clip 1 ~ 여러 개를 뽑아서 사용한다. uniform sampling 을 통해 추출한다.
- 가정: 모든 video가 다 필요하지 않다. 어떤 clip 은 이미 핵심 feature 를 잘 반영하고 있다.
- 효과: 이러한 방법은 동일한 비디오로부터 여러 개의 clip 을 추출하여 학습하므로, 일종의 data augmentation 이라고 볼 수도 있다고 한다. model 의 generality 가 올라갈 수 있다고 말한다.
- 의견: 실제로 Video 에서 image 를 사용할 때, uniform sampling 을 많이 사용한다.
부가 설명
- 위 그림만으로는 정확한 모델의 동작 원리를 알 수가 없어서 적는다.
- 위 그림에선 clip feature 3개가 sampling 된다: 즉, video 1개에서 3개의 clip 을 뽑았다고 이해하면 됨.
- 각각 cross-modal modeling 을 통과한다: 말 그대로 (text, clip1), (text, clip2), (text, clip3) 이렇게 각각 모델을 통과했다는 의미다. 그러면 당연히 결과도 3개가 나온다.
- 그 결과를 mean pooling 과 같은 방법으로 합친다(aggregate)고 말한다.
- 저자는 이 방식을 'sparse-training-then-dense-inference strategy' 라고 표현했다.
2. image-text pretraining 이 video-text task 에 미치는 영향을 연구하다
There has been no study to cross-examine the effect of image-text pre-training on video-text tasks
논문에 이렇게 적혀있다. 즉, image-text 분야에서 잘 학습된 knowledge(model, pretraining) 은 video-text 분야에서 도움이 될 것이라고 말한다. 직관적으로 도움이 될 거라고 예상했고, 그걸 실험을 통해 밝힌다고 한다.
모델 구조
: learning joint representations directly from video frame pixels and raw text tokens, instead of from offline-extracted single-modality features
position embedding
- 그림 상에서 보면, feature 를 먼저 추출하고 위치 정보를 주입한다.
- 요즘 Transformer, BERT, ViT 등의 모델들은 encoding 하면서 넣어주는데, 그 전 방법으로 encoding 을 하다보니 추후에 하는 것으로 보인다.
video encoder
(참고로 NLP 기반 공부만 해서 CV 에 대해 잘 모른다.)
저자는 다음과 같은 구조를 따랐다고 한다. 요즘엔 Vision Transformer 를 많이 쓰기 때문에 아 그렇구나 하고 넘기겠다.
we take the first 5 Conv blocks of ResNet-50 and add an extra convolution layer to reduce its output feature depth, as well as a 2×2 max-pooling layer for spatial down-sampling, following Pixel-BERT.
여기까지만 이해하려고 한다. 그 이유는 다음과 같다.
- CLIP 의 등장으로 이 분야의 모델 구조는 달라졌다.
- VindLU 라는 논문의 이해를 돕기 위해 그 구조만 보고자 한다.
- 성능에 대해선 어차피 후속 논문들이 나와서 자세히 볼 필요가 없다.
'NLP > 논문이해' 카테고리의 다른 글
[논문이해] A Survey on In-context Learning (0) | 2023.07.10 |
---|---|
[논문이해] Let's verify step by step (0) | 2023.06.21 |
[논문이해] CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval (0) | 2023.01.27 |
[논문이해] locally typical sampling (1) | 2023.01.17 |
[논문이해] EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa (0) | 2022.11.28 |