본문 바로가기

NLP/용어정리

[용어정리] SC: Self-Consistency

3줄 요약

  • 모델에게 여러 개의 답변을 생성하게 한다
  • 답변들의 정답으로 다수결을 통해
  • 가장 많이 나온 답을 최종 답변으로 결정한다

 

  • 맨 위에는 greedy decode, 즉 답변 1개만 생성했을 때 틀리면 그대로 끝이라는 예제다.
  • 반면 아래 예제는 3개의 답변을 생성했고, 다수결에 의해 18을 정답으로 한 답변이 채택된다.
  • 논문에서 인간은 다 다르게 생각하는 것처럼 머리를 맞댈 때 정답률이 오른다는 비유를 한다.

 

답변 생성 방식

  • temperature sampling
  • top k sampling
  • top p sampling

 

사실 이런 간단한 아이디어 어떻게 ICLR 논문이 된 거지라기엔 성능이 많이 올랐다. 또, CoT 방식을 더 활용할 수 있는 측면에서 재밌는 아이디어라고 생각한다.

 

 


참고 자료

 

논문명: Self-Consistency Improves Chain of Thought Reasoning in Language Models

논문링크: https://arxiv.org/abs/2203.11171

 

Self-Consistency Improves Chain of Thought Reasoning in Language Models

Chain-of-thought prompting combined with pre-trained large language models has achieved encouraging results on complex reasoning tasks. In this paper, we propose a new decoding strategy, self-consistency, to replace the naive greedy decoding used in chain-

arxiv.org

 

'NLP > 용어정리' 카테고리의 다른 글

[용어정리] LogSumExp  (2) 2024.02.06
[용어정리] Dual Softmax Loss  (0) 2024.02.02
[용어정리] MSE loss vs Cross Entropy loss  (0) 2023.04.11
[용어정리] reparameterization trick  (0) 2023.01.03
[용어정리] ELBO  (0) 2023.01.02