[용어정리] Dual Softmax Loss

3줄 요약

softmax loss 를 2번(dual)하는데,
Column 기준으로 1번, Row 기준으로 1번할 것이다.
이렇게 Loss 만 바꿨더니, 대부분의 모델 성능이 오른다.

논문의 가정은 이러하다

원래 Retrieval 분야의 loss 함수는 이렇게 2개를 각각 구해서 합친다.
첫번째 식은 video 1개를 넣었을 때, B개의 text 중 가장 유사한 걸 찾는 걸 의미한다.
두번째 식은 text 1개를 넣었을 때, B개의 video 중 가장 유사한 걸 찾는 걸 의미한다.
세번째 식은 2개의 LOSS 합이 최소화되도록 하여 정답을 맞추도록 유도한다.
여기서 기억해야 하는 건, 첫번째 식은 Video-to-Text 를 최대화하고, 두번째 식은 Text-to-Video 를 최대화한 것이다.

When a Text-to-Video or Video-to-Text pair reaches the optimal match, the symmetric Video-to-Text or Text-to-Video score should be the highest.

이 논문은 이러한 가설을 제시한다.
Video-to-Text 의 최적화 지점은 곧 Text-to-Video 의 최적화와 같다.

예시로 이해해보다

위 그림은 Retrieval 예제다.
비디오: 구체적이고 다양하고 명확히 구분되는 특징을 볼 수 있다.
텍스트: 비디오에 비해 정보가 부족하고 애매한 경우가 많다. 예컨대 첫번째 텍스트는 매우 추상적이라서 막말로 모든 비디오에 붙여도 어울린다. 실제로 유사도 행렬을 보면, 첫번째 텍스트가 모든 비디오와 유사도가 높게 계산되어 있다.
실제로 inference 할 때도, 이런 점을 고려하지 않고 score를 구하기 때문에 성능이 방해를 받는다.

그래서 prior probability matrix 라는 걸 먼저 구한다.
cross direction 으로 구해서 original matrix 에 곱하겠다는 의미다.
이때, prior probability 를 softmax 로 구하기 때문에 dual softmax 라는 이름이 붙는다.
이렇게 scaling 한 후 원래 softmax 연산을 취하면 양방향을 고려할 수 있다.

시각화하여 비교하다

잘 보면, 위쪽은 노란 점이 이상한 곳에 찍히는데 아래쪽은 대부분 대각선에 예쁘게 찍힌다.
저자는 2가지 장점이 있다고 이야기한다.
1) Filtering the outliers
2) Sharpening the crucial and confidence points
이건 위 예제에서 설명했던 거라서 더 자세하게 이야기하진 않겠다.

단점

실제, 그러니까 현실 세상에서 쓸 수 있는 방법인가? 보통 현실에선 Single Query 에 따라 답을 구할 수 있어야 하는데 이 방법론은 여러 개의 텍스트 쿼리가 동시에 들어오고 나서 구한 행렬이 필요하다.

이에 대한 논의는 추후에 나온 Sinkhorn 이라는 논문이 있다. 그걸 정리하려고 사실 이 글을 썼다.

참고 자료

https://arxiv.org/abs/2109.04290

Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss

Employing large-scale pre-trained model CLIP to conduct video-text retrieval task (VTR) has become a new trend, which exceeds previous VTR methods. Though, due to the heterogeneity of structures and contents between video and text, previous CLIP-based mode

arxiv.org

https://dl.acm.org/doi/10.1145/3539618.3592064

Sinkhorn Transformations for Single-Query Postprocessing in Text-Video Retrieval | Proceedings of the 46th International ACM SIG

SIGIR '23: Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval July 2023 3567 pages Copyright © 2023 ACM Permission to make digital or hard copies of all or part of this work for personal or clas

dl.acm.org

저작자표시 (새창열림)

'NLP > 용어정리' 카테고리의 다른 글

[용어정리] self-BLEU (0)	2024.07.23
[용어정리] LogSumExp (2)	2024.02.06
[용어정리] SC: Self-Consistency (1)	2024.01.09
[용어정리] MSE loss vs Cross Entropy loss (0)	2023.04.11
[용어정리] reparameterization trick (0)	2023.01.03

자연어천재만재

[용어정리] Dual Softmax Loss

3줄 요약

논문의 가정은 이러하다

예시로 이해해보다

시각화하여 비교하다

단점

참고 자료

'NLP > 용어정리' 카테고리의 다른 글

티스토리툴바

[용어정리] Dual Softmax Loss

3줄 요약

논문의 가정은 이러하다

예시로 이해해보다

시각화하여 비교하다

단점

참고 자료

'NLP > 용어정리' 카테고리의 다른 글

'NLP/용어정리' Related Articles

티스토리툴바