본문 바로가기

Reinforcement Learning

(4)
[논문이해] DPO 손실함수는 어떻게 탄생했는가 이 글을 이해하려면, RLHF에 대한 이해가 필요하니 아래 블로그부터 읽으면 좋다. https://heygeronimo.tistory.com/122 [논문이해] training language models to follow instructions with human feedback논문을 이해하고 싶다면 아래 글을 읽으세요. 너무 잘 써서 이것보다 더 잘 쓸 자신이 없어요. https://taeyuplab.tistory.com/10 [논문 리뷰] InstructGPT: Training language models to follow instructions with human feedbackheygeronimo.tistory.com 이 글의 관심사는 오로지 수학적인 유도 과정이다. 나처럼 인공지능을 머신러닝이..
[논문이해] training language models to follow instructions with human feedback 논문을 이해하고 싶다면 아래 글을 읽으세요. 너무 잘 써서 이것보다 더 잘 쓸 자신이 없어요. https://taeyuplab.tistory.com/10 [논문 리뷰] InstructGPT: Training language models to follow instructions with human feedback이 글에서는 InstructGPT를 제안한 논문인 Training language models to follow instructions with human feedback에 대해 살펴볼 것이다. 본 논문은 GPT-1, GPT-2, GPT-3 논문을 발표한 OpenAI로부터 2022년 NeurIPS에 발표되었다.taeyuplab.tistory.com 근데 논문만 읽고서는 이해가 잘 안되기도 합니다. ..
[논문이해] Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning 논문명: Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning (ICLR 2023) 논문링크: https://arxiv.org/abs/2209.14610 Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning Mathematical reasoning, a core ability of human intelligence, presents unique challenges for machines in abstract thinking and logical reasoning. Recent large pre-train..
[논문이해] Let's verify step by step 논문명: Let's verify step by step 논문 링크: https://arxiv.org/abs/2305.20050 Let's Verify Step by Step In recent years, large language models have greatly improved in their ability to perform complex multi-step reasoning. However, even state-of-the-art models still regularly produce logical mistakes. To train more reliable models, we can turn either to outc arxiv.org 요약 언어 모델이 뛰어나지만, 아직도 논리적인 실수를 함 최근..