본문 바로가기

NLP/논문이해

[논문이해] Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling

논문명: Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling

 

논문링크: https://arxiv.org/abs/2102.06183

 

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

The canonical approach to video-and-language learning (e.g., video question answering) dictates a neural model to learn from offline-extracted dense video features from vision models and text features from language models. These feature extractors are trai

arxiv.org

 

 

읽는 이유

  • baseline 으로 자주 등장함.
  • VindLU 라는 논문이 있는데, video retrieval 분야의 모델을 심층 분석하였음. 그 논문의 이해를 돕기 위해 읽고자 함.

초록

: 21년 논문임을 감안해서 읽어야 한다.

 

  • 기존 Mutimodal task 에서 쓰이는 모델들은 각 분야(text, video)에서 학습한 모델들을 사용해왔다.
  • 즉, multimodal task 의 관점에선 suboptimal 된 상태이며, 특히 video extractor는 high computational overload 을 일으킬 수 있다.
  • 그러므로 ClipBERT 라는 모델을 제시하는데, sparse sampling 을 통해 위 문제를 해결한다.
  • sparse sampling: full video 를 사용하지 않고, 일부만 뽑아서 사용하는 방식

본문

 

기존과 어떤 점이 다른가?

 

1. 학습 방식이 다르다

 

 

 

  • 위는 기존 방식, 아래는 ClipBERT 방식이다.
  • 문제: full video 를 다 사용하는 것은 high computational overload 를 일으킨다.
  • 해결법: sparse sampling 을 통해 성능은 유지하면서도 계산량을 감소시킨다.
  • 'stop gradient' 라는 표현이 있는데, 논문에서 별 다른 언급이 없어서 무시하는 게 좋겠다.

 

sparse sampling

  • full video: 전체 비디오를 말함. 가령, 3분짜리 비디오.
  • clip: 짧은 비디오를 말함.
  • 방법: full video에서 clip 1 ~ 여러 개를 뽑아서 사용한다. uniform sampling 을 통해 추출한다.
  • 가정: 모든 video가 다 필요하지 않다. 어떤 clip 은 이미 핵심 feature 를 잘 반영하고 있다.
  • 효과: 이러한 방법은 동일한 비디오로부터 여러 개의 clip 을 추출하여 학습하므로, 일종의 data augmentation 이라고 볼 수도 있다고 한다. model 의 generality 가 올라갈 수 있다고 말한다.
  • 의견: 실제로 Video 에서 image 를 사용할 때, uniform sampling 을 많이 사용한다.

 

부가 설명

  • 위 그림만으로는 정확한 모델의 동작 원리를 알 수가 없어서 적는다.
  • 위 그림에선 clip feature 3개가 sampling 된다: 즉, video 1개에서 3개의 clip 을 뽑았다고 이해하면 됨.
  • 각각 cross-modal modeling 을 통과한다: 말 그대로 (text, clip1), (text, clip2), (text, clip3) 이렇게 각각 모델을 통과했다는 의미다. 그러면 당연히 결과도 3개가 나온다.
  • 그 결과를 mean pooling 과 같은 방법으로 합친다(aggregate)고 말한다.
  • 저자는 이 방식을 'sparse-training-then-dense-inference strategy' 라고 표현했다.

 

2. image-text pretraining 이 video-text task 에 미치는 영향을 연구하다

There has been no study to cross-examine the effect of image-text pre-training on video-text tasks

논문에 이렇게 적혀있다. 즉, image-text 분야에서 잘 학습된 knowledge(model, pretraining) 은 video-text 분야에서 도움이 될 것이라고 말한다. 직관적으로 도움이 될 거라고 예상했고, 그걸 실험을 통해 밝힌다고 한다.

 

모델 구조

: learning joint representations directly from video frame pixels and raw text tokens, instead of from offline-extracted single-modality features

 

position embedding

  • 그림 상에서 보면, feature 를 먼저 추출하고 위치 정보를 주입한다.
  • 요즘 Transformer, BERT, ViT 등의 모델들은 encoding 하면서 넣어주는데, 그 전 방법으로 encoding 을 하다보니 추후에 하는 것으로 보인다.

 

video encoder

(참고로 NLP 기반 공부만 해서 CV 에 대해 잘 모른다.)

 

저자는 다음과 같은 구조를 따랐다고 한다. 요즘엔 Vision Transformer 를 많이 쓰기 때문에 아 그렇구나 하고 넘기겠다.

we take the first 5 Conv blocks of ResNet-50 and add an extra convolution layer to reduce its output feature depth, as well as a 2×2 max-pooling layer for spatial down-sampling, following Pixel-BERT.

 

여기까지만 이해하려고 한다. 그 이유는 다음과 같다.

  • CLIP 의 등장으로 이 분야의 모델 구조는 달라졌다.
  • VindLU 라는 논문의 이해를 돕기 위해 그 구조만 보고자 한다.
  • 성능에 대해선 어차피 후속 논문들이 나와서 자세히 볼 필요가 없다.

 

https://openai.com/blog/clip/

 

CLIP: Connecting Text and Images

We’re introducing a neural network called CLIP which efficiently learns visual concepts from natural language supervision.

openai.com

 

https://arxiv.org/abs/2212.05051

 

VindLU: A Recipe for Effective Video-and-Language Pretraining

The last several years have witnessed remarkable progress in video-and-language (VidL) understanding. However, most modern VidL approaches use complex and specialized model architectures and sophisticated pretraining protocols, making the reproducibility,

arxiv.org