direct preference optimization (1) 썸네일형 리스트형 [논문이해] DPO 손실함수는 어떻게 탄생했는가 이 글을 이해하려면, RLHF에 대한 이해가 필요하니 아래 블로그부터 읽으면 좋다. https://heygeronimo.tistory.com/122 [논문이해] training language models to follow instructions with human feedback논문을 이해하고 싶다면 아래 글을 읽으세요. 너무 잘 써서 이것보다 더 잘 쓸 자신이 없어요. https://taeyuplab.tistory.com/10 [논문 리뷰] InstructGPT: Training language models to follow instructions with human feedbackheygeronimo.tistory.com 이 글의 관심사는 오로지 수학적인 유도 과정이다. 나처럼 인공지능을 머신러닝이.. 이전 1 다음