Video-Text Retrieval (1) 썸네일형 리스트형 [용어정리] Dual Softmax Loss 3줄 요약 softmax loss 를 2번(dual)하는데, Column 기준으로 1번, Row 기준으로 1번할 것이다. 이렇게 Loss 만 바꿨더니, 대부분의 모델 성능이 오른다. 논문의 가정은 이러하다 원래 Retrieval 분야의 loss 함수는 이렇게 2개를 각각 구해서 합친다. 첫번째 식은 video 1개를 넣었을 때, B개의 text 중 가장 유사한 걸 찾는 걸 의미한다. 두번째 식은 text 1개를 넣었을 때, B개의 video 중 가장 유사한 걸 찾는 걸 의미한다. 세번째 식은 2개의 LOSS 합이 최소화되도록 하여 정답을 맞추도록 유도한다. 여기서 기억해야 하는 건, 첫번째 식은 Video-to-Text 를 최대화하고, 두번째 식은 Text-to-Video 를 최대화한 것이다. When .. 이전 1 다음