[용어정리] self-BLEU
(BLEU 를 잘모르신다면, 먼저 보셔야 합니다.) 핵심 문제점언어 모델은 보통 beam search 를 사용해서 K개의 답변을 생성함그런데 그 답변이 죄다 비슷하면 사실 여러 개를 생성하는 의미가 없음즉 다양한 답변을 생성할수록 좋은 모델로 볼 수 있음그러나 답변이 얼마나 다양하게 생성되는지에 대해 평가하는 지표가 없음 해결책목적: K개의 답변을 생성하게 해서 다양성을 BLEU를 활용해서 측정하자방법: K개의 답변끼리 BLEU score 를 각각 측정해서 평균을 내자 예시GPT3에게 답변을 5개 생성하도록 했다 (A, B, C, D, E)모든 조합별로 BLEU score를 구한다.모든 조합: [(A, B), (A, C), (A, D), (A, E), (B, C), ...... (D, E)]조합의 개수는..