본문 바로가기

NLP/용어정리

[용어정리] self-BLEU

(BLEU 를 잘모르신다면, 먼저 보셔야 합니다.)

 

핵심

 

문제점

  • 언어 모델은 보통 beam search 를 사용해서 K개의 답변을 생성함
  • 그런데 그 답변이 죄다 비슷하면 사실 여러 개를 생성하는 의미가 없음
  • 즉 다양한 답변을 생성할수록 좋은 모델로 볼 수 있음
  • 그러나 답변이 얼마나 다양하게 생성되는지에 대해 평가하는 지표가 없음

 

해결책

  • 목적: K개의 답변을 생성하게 해서 다양성을 BLEU를 활용해서 측정하자
  • 방법: K개의 답변끼리 BLEU score 를 각각 측정해서 평균을 내자

 

예시

  • GPT3에게 답변을 5개 생성하도록 했다 (A, B, C, D, E)
  • 모든 조합별로 BLEU score를 구한다.
  • 모든 조합: [(A, B), (A, C), (A, D), (A, E), (B, C), ...... (D, E)]
  • 조합의 개수는  5 X 4 = 20, 20개의 BLEU score 가 계산된다.
  • 평균내서 사용한다.

 

무슨 의미를 갖는가

  • BLEU score 는 길이와 글자 모두 똑같아야 점수가 높다
  • 이 점을 활용해서 각 답변이 오히려 다르게 생겼을수록 점수가 낮으니 평균을 구해서 낮을수록 다양성이 높다고 볼 수 있다.
  • 즉 낮을수록 다양성이 높다. 낮을수록 좋은 지표다.
  • self 가 붙는 이유도 자신의 답변끼리 스스로 다 BLEU를 구해서 인 것 같다. 원래 BLEU는 번역을 평가하니까 정답과 비교하는 반면, 여기서는 자신이 생성한 답변끼리 비교하니까 그런 것 같다.

'NLP > 용어정리' 카테고리의 다른 글

[용어정리] LogSumExp  (2) 2024.02.06
[용어정리] Dual Softmax Loss  (0) 2024.02.02
[용어정리] SC: Self-Consistency  (1) 2024.01.09
[용어정리] MSE loss vs Cross Entropy loss  (0) 2023.04.11
[용어정리] reparameterization trick  (0) 2023.01.03