본문 바로가기

Chain of Thoughts

(2)

[용어정리] SC: Self-Consistency 3줄 요약 모델에게 여러 개의 답변을 생성하게 한다 답변들의 정답으로 다수결을 통해 가장 많이 나온 답을 최종 답변으로 결정한다 맨 위에는 greedy decode, 즉 답변 1개만 생성했을 때 틀리면 그대로 끝이라는 예제다. 반면 아래 예제는 3개의 답변을 생성했고, 다수결에 의해 18을 정답으로 한 답변이 채택된다. 논문에서 인간은 다 다르게 생각하는 것처럼 머리를 맞댈 때 정답률이 오른다는 비유를 한다. 답변 생성 방식 temperature sampling top k sampling top p sampling 사실 이런 간단한 아이디어 어떻게 ICLR 논문이 된 거지라기엔 성능이 많이 올랐다. 또, CoT 방식을 더 활용할 수 있는 측면에서 재밌는 아이디어라고 생각한다. 참고 자료 논문명: Self..

[논문이해] The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning 논문명: The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning 논문링크: https://arxiv.org/abs/2305.14045 The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning Language models (LMs) with less than 100B parameters are known to perform poorly on chain-of-thought (CoT) reasoning in contra..

이전 1 다음

티스토리툴바