3줄 요약
- 모델에게 여러 개의 답변을 생성하게 한다
- 답변들의 정답으로 다수결을 통해
- 가장 많이 나온 답을 최종 답변으로 결정한다
- 맨 위에는 greedy decode, 즉 답변 1개만 생성했을 때 틀리면 그대로 끝이라는 예제다.
- 반면 아래 예제는 3개의 답변을 생성했고, 다수결에 의해 18을 정답으로 한 답변이 채택된다.
- 논문에서 인간은 다 다르게 생각하는 것처럼 머리를 맞댈 때 정답률이 오른다는 비유를 한다.
답변 생성 방식
- temperature sampling
- top k sampling
- top p sampling
사실 이런 간단한 아이디어 어떻게 ICLR 논문이 된 거지라기엔 성능이 많이 올랐다. 또, CoT 방식을 더 활용할 수 있는 측면에서 재밌는 아이디어라고 생각한다.
참고 자료
논문명: Self-Consistency Improves Chain of Thought Reasoning in Language Models
논문링크: https://arxiv.org/abs/2203.11171
'NLP > 용어정리' 카테고리의 다른 글
[용어정리] LogSumExp (2) | 2024.02.06 |
---|---|
[용어정리] Dual Softmax Loss (0) | 2024.02.02 |
[용어정리] MSE loss vs Cross Entropy loss (0) | 2023.04.11 |
[용어정리] reparameterization trick (0) | 2023.01.03 |
[용어정리] ELBO (0) | 2023.01.02 |