논문명: Contrastive Decoding: Open-ended Text Generation as Optimization
논문 링크: https://arxiv.org/abs/2210.15097
핵심만 정리합니다
전제
- 큰 모델에 비해 작은 모델은 문제가 많음
- 답변이 짧고, 관련 없고, 반복되며, 사실 기반의 답변을 하지 못함
해결책
- 오히려 좋아. 작은 모델의 편향성을 이용해서 역으로 작은 모델처럼 하지 못하게 하자.
- '큰 모델의 확률 - 작은 모델 확률' 이 더 정확하다
- 큰 모델을 전문가 모델, 작은 모델을 아마추어 모델이라고 부르기로 함
- 그리고 아마추어 모델이 하는 방향의 반대로 가겠다는 게 이 논문의 핵심임
(너무 잔인하다....작은 모델이 못하니까 작은 모델 반대로만 가도 성공할 거라는 믿음이니까)
- 아마추어 모델은 프롬프트에 안 맞게 또 하와이나 호노룰루를 생성하려고 함. 의미 없이 반복하는 경향이 나타남.
- 전문가 모델은 아마추어 모델의 확률을 빼서 생성했더니 더 잘하더라