본문 바로가기

Bleu

(3)
[용어정리] self-BLEU (BLEU 를 잘모르신다면, 먼저 보셔야 합니다.) 핵심 문제점언어 모델은 보통 beam search 를 사용해서 K개의 답변을 생성함그런데 그 답변이 죄다 비슷하면 사실 여러 개를 생성하는 의미가 없음즉 다양한 답변을 생성할수록 좋은 모델로 볼 수 있음그러나 답변이 얼마나 다양하게 생성되는지에 대해 평가하는 지표가 없음 해결책목적: K개의 답변을 생성하게 해서 다양성을 BLEU를 활용해서 측정하자방법: K개의 답변끼리 BLEU score 를 각각 측정해서 평균을 내자 예시GPT3에게 답변을 5개 생성하도록 했다 (A, B, C, D, E)모든 조합별로 BLEU score를 구한다.모든 조합: [(A, B), (A, C), (A, D), (A, E), (B, C), ...... (D, E)]조합의 개수는..
[논문이해] BLEURT: Learning Robust Metrics for Text Generation 논문명: BLEURT: Learning Robust Metrics for Text Generation 논문 링크: https://arxiv.org/abs/2004.04696 BLEURT: Learning Robust Metrics for Text Generation Text generation has made significant advances in the last few years. Yet, evaluation metrics have lagged behind, as the most popular choices (e.g., BLEU and ROUGE) may correlate poorly with human judgments. We propose BLEURT, a learned evaluation me..
[용어정리] BLEU Score 3줄 요약 N - gram 에 기반하여기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여번역에 대한 성능을 측정하는 방법   Bilingual Evaluation Understudy bilingual: 2개 언어의 → 입력 언어와 출력 언어를 의미함evaluation: 평가understudy: 검색해보면, '임시대역배우'라고 나온다. 자세히 찾아보지 않았으나, 번역 태스크에서 완벽한 metric 이 존재하지 않다보니 이런 표현을 쓴 것으로 추측된다. 잘 번역되었다는 것은 무슨 의미인가? 사실 BLEU 를 공부하는 사람들은 나를 포함해 기초 단계에 있는 사람들이다. 나는 무작정 공부하면 다 까먹어서, 왜 이런 기준이 탄생했는지부터 의문을 가져보기로 했다. 자, 다음과 같이 번역된 예제가 ..