(BLEU 를 잘모르신다면, 먼저 보셔야 합니다.)
핵심
문제점
- 언어 모델은 보통 beam search 를 사용해서 K개의 답변을 생성함
- 그런데 그 답변이 죄다 비슷하면 사실 여러 개를 생성하는 의미가 없음
- 즉 다양한 답변을 생성할수록 좋은 모델로 볼 수 있음
- 그러나 답변이 얼마나 다양하게 생성되는지에 대해 평가하는 지표가 없음
해결책
- 목적: K개의 답변을 생성하게 해서 다양성을 BLEU를 활용해서 측정하자
- 방법: K개의 답변끼리 BLEU score 를 각각 측정해서 평균을 내자
예시
- GPT3에게 답변을 5개 생성하도록 했다 (A, B, C, D, E)
- 모든 조합별로 BLEU score를 구한다.
- 모든 조합: [(A, B), (A, C), (A, D), (A, E), (B, C), ...... (D, E)]
- 조합의 개수는 5 X 4 = 20, 20개의 BLEU score 가 계산된다.
- 평균내서 사용한다.
무슨 의미를 갖는가
- BLEU score 는 길이와 글자 모두 똑같아야 점수가 높다
- 이 점을 활용해서 각 답변이 오히려 다르게 생겼을수록 점수가 낮으니 평균을 구해서 낮을수록 다양성이 높다고 볼 수 있다.
- 즉 낮을수록 다양성이 높다. 낮을수록 좋은 지표다.
- self 가 붙는 이유도 자신의 답변끼리 스스로 다 BLEU를 구해서 인 것 같다. 원래 BLEU는 번역을 평가하니까 정답과 비교하는 반면, 여기서는 자신이 생성한 답변끼리 비교하니까 그런 것 같다.
'NLP > 용어정리' 카테고리의 다른 글
[용어정리] LogSumExp (2) | 2024.02.06 |
---|---|
[용어정리] Dual Softmax Loss (0) | 2024.02.02 |
[용어정리] SC: Self-Consistency (1) | 2024.01.09 |
[용어정리] MSE loss vs Cross Entropy loss (0) | 2023.04.11 |
[용어정리] reparameterization trick (0) | 2023.01.03 |