본문 바로가기

NLP/논문이해

[논문이해] Contrastive Decoding: Open-ended Text Generation as Optimization

논문명: Contrastive Decoding: Open-ended Text Generation as Optimization

논문 링크: https://arxiv.org/abs/2210.15097

 

Contrastive Decoding: Open-ended Text Generation as Optimization

Given a language model (LM), maximum probability is a poor decoding objective for open-ended generation, because it produces short and repetitive text. On the other hand, sampling can often produce incoherent text that drifts from the original topics. We p

arxiv.org

 

핵심만 정리합니다


 

전제

  • 큰 모델에 비해 작은 모델은 문제가 많음
  • 답변이 짧고, 관련 없고, 반복되며, 사실 기반의 답변을 하지 못함

 

해결책

  • 오히려 좋아. 작은 모델의 편향성을 이용해서 역으로 작은 모델처럼 하지 못하게 하자.
  • '큰 모델의 확률 - 작은 모델 확률' 이 더 정확하다
  • 큰 모델을 전문가 모델, 작은 모델을 아마추어 모델이라고 부르기로 함
  • 그리고 아마추어 모델이 하는 방향의 반대로 가겠다는 게 이 논문의 핵심임

(너무 잔인하다....작은 모델이 못하니까 작은 모델 반대로만 가도 성공할 거라는 믿음이니까)

 

  • 아마추어 모델은 프롬프트에 안 맞게 또 하와이나 호노룰루를 생성하려고 함. 의미 없이 반복하는 경향이 나타남.
  • 전문가 모델은 아마추어 모델의 확률을 빼서 생성했더니 더 잘하더라