본문 바로가기

NLP/용어정리

(15)
[용어정리] self-BLEU (BLEU 를 잘모르신다면, 먼저 보셔야 합니다.) 핵심 문제점언어 모델은 보통 beam search 를 사용해서 K개의 답변을 생성함그런데 그 답변이 죄다 비슷하면 사실 여러 개를 생성하는 의미가 없음즉 다양한 답변을 생성할수록 좋은 모델로 볼 수 있음그러나 답변이 얼마나 다양하게 생성되는지에 대해 평가하는 지표가 없음 해결책목적: K개의 답변을 생성하게 해서 다양성을 BLEU를 활용해서 측정하자방법: K개의 답변끼리 BLEU score 를 각각 측정해서 평균을 내자 예시GPT3에게 답변을 5개 생성하도록 했다 (A, B, C, D, E)모든 조합별로 BLEU score를 구한다.모든 조합: [(A, B), (A, C), (A, D), (A, E), (B, C), ...... (D, E)]조합의 개수는..
[용어정리] LogSumExp https://gregorygundersen.com/blog/2020/02/09/log-sum-exp/ The Log-Sum-Exp Trick In statistical modeling and machine learning, we often work in a logarithmic scale. There are many good reasons for this. For example, when xxx and yyy are both small numbers, multiplying xxx times yyy may underflow. However, we can work in a logarithmic s gregorygundersen.com 한글 자료 중에서 LogSumExp 의 정의와 사용 이유를 와닿게 작성한..
[용어정리] Dual Softmax Loss 3줄 요약 softmax loss 를 2번(dual)하는데, Column 기준으로 1번, Row 기준으로 1번할 것이다. 이렇게 Loss 만 바꿨더니, 대부분의 모델 성능이 오른다. 논문의 가정은 이러하다 원래 Retrieval 분야의 loss 함수는 이렇게 2개를 각각 구해서 합친다. 첫번째 식은 video 1개를 넣었을 때, B개의 text 중 가장 유사한 걸 찾는 걸 의미한다. 두번째 식은 text 1개를 넣었을 때, B개의 video 중 가장 유사한 걸 찾는 걸 의미한다. 세번째 식은 2개의 LOSS 합이 최소화되도록 하여 정답을 맞추도록 유도한다. 여기서 기억해야 하는 건, 첫번째 식은 Video-to-Text 를 최대화하고, 두번째 식은 Text-to-Video 를 최대화한 것이다. When ..
[용어정리] SC: Self-Consistency 3줄 요약 모델에게 여러 개의 답변을 생성하게 한다 답변들의 정답으로 다수결을 통해 가장 많이 나온 답을 최종 답변으로 결정한다 맨 위에는 greedy decode, 즉 답변 1개만 생성했을 때 틀리면 그대로 끝이라는 예제다. 반면 아래 예제는 3개의 답변을 생성했고, 다수결에 의해 18을 정답으로 한 답변이 채택된다. 논문에서 인간은 다 다르게 생각하는 것처럼 머리를 맞댈 때 정답률이 오른다는 비유를 한다. 답변 생성 방식 temperature sampling top k sampling top p sampling 사실 이런 간단한 아이디어 어떻게 ICLR 논문이 된 거지라기엔 성능이 많이 올랐다. 또, CoT 방식을 더 활용할 수 있는 측면에서 재밌는 아이디어라고 생각한다. 참고 자료 논문명: Self..
[용어정리] MSE loss vs Cross Entropy loss 코드에서는 무슨 차이가 있어? 아마 이런 글을 찾은 사람들은 구현할 때 이 둘의 차이가 크게 없다고 보고 궁금해서 찾아봤을 것이다. 나도 그렇다. 대강 이런 생각을 했었다. 어차피 둘 다 정답을 향해 수렴하는데? 학습은 뭘 쓰든 잘 될 것 같은데? 분포적으로는 이해를 했지만 찾아보면 이런 이야기를 한다. Gaussian 분포를 미분하면, MSE loss 가 나온다 → 그러므로 연속 확률 변수에 쓰자 Categorical 분포를 미분하면, CE loss 가 나온다 → 그러므로 이산 확률 변수에 쓰자 (여기에 정리가 잘 되어 있어서 참고하시길.) 좋다. 원리적으로는 이게 맞지. 그래서 성능도 그게 더 좋아? 근데 성능 면에서도 더 좋은 건가? 그에 대해서는 말이 없었다. 그냥 Gaussian 분포는 연속적인..
[용어정리] reparameterization trick 주의 이 글은 설명 글이 아님. 단순히 어떤 느낌을 봐야한다는 관점을 짧게 정리한 글임. 그런데 이 관점도 틀릴 수도 있음. VAE 에 대해 어느 정도 이해해야 이 글을 읽을 수 있음. reparameterization trick VAE 에 대해 공부하다가, 'reparameterization trick' 을 알게 되었다. 다행히 정말 잘 정리된 글이 있어서, 수식을 완전히 이해할 수 있다면 이 글은 보물 그 자체다. https://jaejunyoo.blogspot.com/2017/05/auto-encoding-variational-bayes-vae-3.html 초짜 대학원생의 입장에서 이해하는 Auto-Encoding Variational Bayes (VAE) (3) Machine learning an..
[용어정리] ELBO 최근에 논문을 읽다가 'ELBO(Evidence Lower Bound)' 라는 용어를 발견했다. 최대한 모른 척하고 넘어가려고 했으나, loss 의 핵심이라 찾아볼 수 밖에 없었다. 다행히 정말 멋진 사람들이 정리를 잘 해둬서 나는 그걸 초심자의 입장에서 순서와 배치만 다듬어서 올리고자 한다. 다시 한 번 좋은 글을 써주신 공로에 감사를 드린다. 나는 초보자의 관점에서 글을 재구성해보고자 한다. ELBO 의 이해를 돕기 위한 예시 갑자기 온 세상에 줄자가 사라졌다. 그런데 인류를 구하려면, 내 키를 구해야 한다고 한다. 하지만 나는 내 다리와 허리와 머리를 다쳐서 제대로 서있는 게 힘들고, 키를 까먹었다. 다행히 나는 함께 지내면서 나보다 확실히 키가 작은 친구들을 알고 있다. 그래서 그 친구들을 불러 ..
[용어정리] ML(Maximum Likelihood) vs MAP(Maximum A Posterior) 계기 NLP 를 엉성하게 접하면, transformer 기반 모델과 huggingface 만으로도 어찌저찌 살아갈 수 있다. 하지만 논문을 자주 읽다보면, 확률과 통계, 수식 등 근본적인 이해가 필요할 때가 반드시 온다. 매번 헷갈리는 개념이라서 차라리 예시를 암기하는 것이 훨씬 도움이 되겠다 싶어서 좋은 예시를 발견한 찰나에 정리해두기로 했다. 예시를 통한 이해 머리카락 길이로 성별 맞추기 ML(Maximum Likelihood), MAP(Maximum A Posterior) 에 대한 정의를 이야기 하기 전, 예시를 통해 접근해보자. 당신은 머리카락 길이만 보고도 성별을 맞추는 퀴즈쇼에 나갔다. 편의를 위해 머리카락 길이를 z, 성별을 x 라고 표기하자. 예컨대, 당신은 머리카락 길이(z)가 20cm ..