글 제목: Successful language model evals
글 링크: https://www.jasonwei.net/blog/evals
거대언어모델의 선구적인 연구자인 Jason Wei 가 최근에 글을 하나 내셨다. 그 글이 나를 포함한 AI 연구자들에게 귀감이 되는 것 같아 한글로 후다닥 옮겨보았다.
평가지표, 벤치마크, 데이터셋의 역할에 대한 이야기다
평가지표가 중요한 세대
- 그 어느 시대보다 평가지표가 중요해졌다
- 거대언어모델들은 평가지표를 위해 달린다
- 그리고 거대언어모델을 위해 다양한 평가지표가 만들어진다
- 우리가 그동안 모델에 주목해왔지만, 사실 평가지표에 대해서도 짚어봐야 한다
성공적인 평가지표는 무엇인가
- 돌파구처럼 뛰어난 논문에 쓰인다
- 많은 연구자들이 신뢰한다
그 예시는 다음과 같다
- GLUE/SuperGLUE was used by basically all NLP papers in the pre-LLM era (BERT, T5, etc).
- MMLU is used by almost all LLM papers. It’s the favorite eval of DeepMind and Google.
- GSM8K spurred LLMs for reasoning, and is used in every paper on chain-of-thought.
- MATH is also used in most LLM papers.
- HumanEval is the classic eval for LLMs for coding.
- 그 이외에도 여럿 있을 것이나 다 나열하기 어려워 넘어간다
저자도 2개의 데이터셋을 만들었다고 한다
- MGSM is used in OpenAI’s simple evals, Claude, and Gemini.
- BBH was used in Claude, Gemini, and Llama.
1. 훌륭한 데이터셋은 뛰어난 모델/논문을 알아본다
이러한 데이터셋의 공통점은 뛰어난 논문/모델이 등장할 때 큰 성능 향상이 있었다는 점이다
- GLUE was promoted by BERT.
- MMLU was promoted by Gopher, Chinchilla, and Flan-PaLM.
- Chain-of-thought prompting claimed a breakthrough on GSM8K.
- The prowess of Minerva was shown on MATH.
- HumanEval was attempted by Codex and others.
2. 뛰어난 데이터셋은 성능 측정도 직관적인 숫자이면서 중요한 의미를 담는다
- achieving superhuman performance is very understandable.
- Solving grade-school level math problems is also something people can easily grasp the significance of.
3. 아래와 같은 단점을 갖지 않아야 한다
- 평가 데이터셋이 최소 1000개는 넘어야 한다: 그렇지 않으면 연구자들은 부정확한 평가가 모델에 문제가 있는 것으로 착각할 수 있다. GPQA는 프롬프트에 따라 변동이 심해 사용이 어렵다.
- 데이터가 정확해야 한다, 즉 품질이 좋아야 한다: NQ를 GPT4로 검사해보니 평가 데이터들이 틀렸더라. 그래서 더 이상 사용하지 않는다.
- 복잡하지 마라: 너무 다양한 지표와 다양한 데이터셋을 포함하는 건 좋지 않다. HELM 는 공을 많이 들였겠지만 복잡하다.
- 실행시간이 너무 긴 건 좋지 않다: 피로감도 높고 새로운 아이디어를 제시하고 확인하기까지 오래 걸린다. BIG-Bench 가 그렇다.
- 평가가 의미가 있어야 한다: 예컨대, BIG-Bench Hard 는 영화 추천이나 괄호 잘 닫았는지 확인한다. 이런 성능이 높은 게 과연 좋은 모델일까?
- 채점이 매우 정확해야 한다: 디버깅해보니 채점이 이상을 느끼면 연구자들은 빠르게 사용하지 않게 된다.
- 빠르게 정복되선 안된다: SuperGLUE 는 다 좋은데 너무나 빠르게 함락되었다.
뒤에는 그의 견해가 많이 나오는데, 이걸 옮기려니 의미가 훼손되는 것 같아 저는 여기까지만 남겨두겠습니다. 감사합니다.
이 글이 진짜 재밌어서 저도 입문했는데 시간되시면 보셔요!
https://heygeronimo.tistory.com/93
'NLP > Insight' 카테고리의 다른 글
[Insight] Some intuitions about large language models (0) | 2024.03.05 |
---|