본문 바로가기

분류 전체보기

(114)
[논문이해] Sinkhorn Transformations for Single-Query Postprocessing in Text-Video Retrieval 논문명: Sinkhorn Transformations for Single-Query Postprocessing in Text-Video Retrieval 논문 링크: https://dl.acm.org/doi/10.1145/3539618.3592064 Sinkhorn Transformations for Single-Query Postprocessing in Text-Video Retrieval | Proceedings of the 46th International ACM SIG SIGIR '23: Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval July 2..
[용어정리] LogSumExp https://gregorygundersen.com/blog/2020/02/09/log-sum-exp/ The Log-Sum-Exp Trick In statistical modeling and machine learning, we often work in a logarithmic scale. There are many good reasons for this. For example, when xxx and yyy are both small numbers, multiplying xxx times yyy may underflow. However, we can work in a logarithmic s gregorygundersen.com 한글 자료 중에서 LogSumExp 의 정의와 사용 이유를 와닿게 작성한..
[용어정리] Dual Softmax Loss 3줄 요약 softmax loss 를 2번(dual)하는데, Column 기준으로 1번, Row 기준으로 1번할 것이다. 이렇게 Loss 만 바꿨더니, 대부분의 모델 성능이 오른다. 논문의 가정은 이러하다 원래 Retrieval 분야의 loss 함수는 이렇게 2개를 각각 구해서 합친다. 첫번째 식은 video 1개를 넣었을 때, B개의 text 중 가장 유사한 걸 찾는 걸 의미한다. 두번째 식은 text 1개를 넣었을 때, B개의 video 중 가장 유사한 걸 찾는 걸 의미한다. 세번째 식은 2개의 LOSS 합이 최소화되도록 하여 정답을 맞추도록 유도한다. 여기서 기억해야 하는 건, 첫번째 식은 Video-to-Text 를 최대화하고, 두번째 식은 Text-to-Video 를 최대화한 것이다. When ..
[논문이해] VLIS: Unimodal Language Models Guide Multimodal Language Generation 논문명: VLIS: Unimodal Language Models Guide Multimodal Language Generation 논문 링크: https://arxiv.org/abs/2310.09767 VLIS: Unimodal Language Models Guide Multimodal Language Generation Multimodal language generation, which leverages the synergy of language and vision, is a rapidly expanding field. However, existing vision-language models face challenges in tasks that require complex linguistic under..
[용어정리] SC: Self-Consistency 3줄 요약 모델에게 여러 개의 답변을 생성하게 한다 답변들의 정답으로 다수결을 통해 가장 많이 나온 답을 최종 답변으로 결정한다 맨 위에는 greedy decode, 즉 답변 1개만 생성했을 때 틀리면 그대로 끝이라는 예제다. 반면 아래 예제는 3개의 답변을 생성했고, 다수결에 의해 18을 정답으로 한 답변이 채택된다. 논문에서 인간은 다 다르게 생각하는 것처럼 머리를 맞댈 때 정답률이 오른다는 비유를 한다. 답변 생성 방식 temperature sampling top k sampling top p sampling 사실 이런 간단한 아이디어 어떻게 ICLR 논문이 된 거지라기엔 성능이 많이 올랐다. 또, CoT 방식을 더 활용할 수 있는 측면에서 재밌는 아이디어라고 생각한다. 참고 자료 논문명: Self..
[논문이해] The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning 논문명: The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning 논문링크: https://arxiv.org/abs/2305.14045 The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning Language models (LMs) with less than 100B parameters are known to perform poorly on chain-of-thought (CoT) reasoning in contra..
[논문 이해] SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval 논문명: SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval 논문 링크: https://arxiv.org/abs/2109.10086 SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval In neural Information Retrieval (IR), ongoing research is directed towards improving the first retriever in ranking pipelines. Learning dense embeddings to conduct retrieval using efficient approximate nearest..
[논문이해] SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking 논문명: SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking 논문 링크: https://arxiv.org/abs/2107.05720 SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking In neural Information Retrieval, ongoing research is directed towards improving the first retriever in ranking pipelines. Learning dense embeddings to conduct retrieval using efficient approximate nearest neighbors meth..