본문 바로가기

NLP/Insight

[Insight] Successful language model evals

글 제목: Successful language model evals

글 링크: https://www.jasonwei.net/blog/evals

 

Successful language model evals — Jason Wei

Everybody uses evaluation benchmarks (“evals”), but I think they deserve more attention than they are currently getting. Evals are incentives for the research community, and breakthroughs are often closely linked to a huge performance jump on some eval

www.jasonwei.net

 

거대언어모델의 선구적인 연구자인 Jason Wei 가 최근에 글을 하나 내셨다. 그 글이 나를 포함한 AI 연구자들에게 귀감이 되는 것 같아 한글로 후다닥 옮겨보았다.

 

평가지표, 벤치마크, 데이터셋의 역할에 대한 이야기다


 

평가지표가 중요한 세대

  • 그 어느 시대보다 평가지표가 중요해졌다
  • 거대언어모델들은 평가지표를 위해 달린다
  • 그리고 거대언어모델을 위해 다양한 평가지표가 만들어진다
  • 우리가 그동안 모델에 주목해왔지만, 사실 평가지표에 대해서도 짚어봐야 한다

 

성공적인 평가지표는 무엇인가

  • 돌파구처럼 뛰어난 논문에 쓰인다
  • 많은 연구자들이 신뢰한다

 

그 예시는 다음과 같다

  • GLUE/SuperGLUE was used by basically all NLP papers in the pre-LLM era (BERT, T5, etc).
  • MMLU is used by almost all LLM papers. It’s the favorite eval of DeepMind and Google.
  • GSM8K spurred LLMs for reasoning, and is used in every paper on chain-of-thought.
  • MATH is also used in most LLM papers.
  • HumanEval is the classic eval for LLMs for coding.
  • 그 이외에도 여럿 있을 것이나 다 나열하기 어려워 넘어간다

 

저자도 2개의 데이터셋을 만들었다고 한다

  • MGSM is used in OpenAI’s simple evals, Claude, and Gemini.
  • BBH was used in Claude, Gemini, and Llama.

 

1. 훌륭한 데이터셋은 뛰어난 모델/논문을 알아본다

이러한 데이터셋의 공통점은 뛰어난 논문/모델이 등장할 때 큰 성능 향상이 있었다는 점이다

  • GLUE was promoted by BERT.
  • MMLU was promoted by Gopher, Chinchilla, and Flan-PaLM.
  • Chain-of-thought prompting claimed a breakthrough on GSM8K.
  • The prowess of Minerva was shown on MATH.
  • HumanEval was attempted by Codex and others.

 

2. 뛰어난 데이터셋은 성능 측정도 직관적인 숫자이면서 중요한 의미를 담는다

  • achieving superhuman performance is very understandable.
  • Solving grade-school level math problems is also something people can easily grasp the significance of.

 

3. 아래와 같은 단점을 갖지 않아야 한다

 

  • 평가 데이터셋이 최소 1000개는 넘어야 한다: 그렇지 않으면 연구자들은 부정확한 평가가 모델에 문제가 있는 것으로 착각할 수 있다. GPQA는 프롬프트에 따라 변동이 심해 사용이 어렵다.
  • 데이터가 정확해야 한다, 즉 품질이 좋아야 한다: NQ를 GPT4로 검사해보니 평가 데이터들이 틀렸더라. 그래서 더 이상 사용하지 않는다.
  • 복잡하지 마라: 너무 다양한 지표와 다양한 데이터셋을 포함하는 건 좋지 않다. HELM 는 공을 많이 들였겠지만 복잡하다.
  • 실행시간이 너무 긴 건 좋지 않다: 피로감도 높고 새로운 아이디어를 제시하고 확인하기까지 오래 걸린다. BIG-Bench 가 그렇다.
  • 평가가 의미가 있어야 한다: 예컨대, BIG-Bench Hard 는 영화 추천이나 괄호 잘 닫았는지 확인한다. 이런 성능이 높은 게 과연 좋은 모델일까?
  • 채점이 매우 정확해야 한다: 디버깅해보니 채점이 이상을 느끼면 연구자들은 빠르게 사용하지 않게 된다.
  • 빠르게 정복되선 안된다: SuperGLUE 는 다 좋은데 너무나 빠르게 함락되었다.

 

뒤에는 그의 견해가 많이 나오는데, 이걸 옮기려니 의미가 훼손되는 것 같아 저는 여기까지만 남겨두겠습니다. 감사합니다.

 

 

이 글이 진짜 재밌어서 저도 입문했는데 시간되시면 보셔요!

 

https://heygeronimo.tistory.com/93

 

[Insight] Some intuitions about large language models

블로그명: Some intuitions about large language models 블로그 링크: https://www.jasonwei.net/blog/some-intuitions-about-large-language-models Some intuitions about large language models — Jason Wei An open question these days is why large languag

heygeronimo.tistory.com

 

'NLP > Insight' 카테고리의 다른 글

[Insight] Some intuitions about large language models  (0) 2024.03.05