[Insight] Successful language model evals

글 제목: Successful language model evals

글 링크: https://www.jasonwei.net/blog/evals

Successful language model evals — Jason Wei

Everybody uses evaluation benchmarks (“evals”), but I think they deserve more attention than they are currently getting. Evals are incentives for the research community, and breakthroughs are often closely linked to a huge performance jump on some eval

www.jasonwei.net

거대언어모델의 선구적인 연구자인 Jason Wei 가 최근에 글을 하나 내셨다. 그 글이 나를 포함한 AI 연구자들에게 귀감이 되는 것 같아 한글로 후다닥 옮겨보았다.

평가지표, 벤치마크, 데이터셋의 역할에 대한 이야기다

평가지표가 중요한 세대

그 어느 시대보다 평가지표가 중요해졌다
거대언어모델들은 평가지표를 위해 달린다
그리고 거대언어모델을 위해 다양한 평가지표가 만들어진다
우리가 그동안 모델에 주목해왔지만, 사실 평가지표에 대해서도 짚어봐야 한다

성공적인 평가지표는 무엇인가

돌파구처럼 뛰어난 논문에 쓰인다
많은 연구자들이 신뢰한다

그 예시는 다음과 같다

GLUE/SuperGLUE was used by basically all NLP papers in the pre-LLM era (BERT, T5, etc).
MMLU is used by almost all LLM papers. It’s the favorite eval of DeepMind and Google.
GSM8K spurred LLMs for reasoning, and is used in every paper on chain-of-thought.
MATH is also used in most LLM papers.
HumanEval is the classic eval for LLMs for coding.
그 이외에도 여럿 있을 것이나 다 나열하기 어려워 넘어간다

저자도 2개의 데이터셋을 만들었다고 한다

MGSM is used in OpenAI’s simple evals, Claude, and Gemini.
BBH was used in Claude, Gemini, and Llama.

1. 훌륭한 데이터셋은 뛰어난 모델/논문을 알아본다

이러한 데이터셋의 공통점은 뛰어난 논문/모델이 등장할 때 큰 성능 향상이 있었다는 점이다

GLUE was promoted by BERT.
MMLU was promoted by Gopher, Chinchilla, and Flan-PaLM.
Chain-of-thought prompting claimed a breakthrough on GSM8K.
The prowess of Minerva was shown on MATH.
HumanEval was attempted by Codex and others.

2. 뛰어난 데이터셋은 성능 측정도 직관적인 숫자이면서 중요한 의미를 담는다

achieving superhuman performance is very understandable.
Solving grade-school level math problems is also something people can easily grasp the significance of.

3. 아래와 같은 단점을 갖지 않아야 한다

평가 데이터셋이 최소 1000개는 넘어야 한다: 그렇지 않으면 연구자들은 부정확한 평가가 모델에 문제가 있는 것으로 착각할 수 있다. GPQA는 프롬프트에 따라 변동이 심해 사용이 어렵다.
데이터가 정확해야 한다, 즉 품질이 좋아야 한다: NQ를 GPT4로 검사해보니 평가 데이터들이 틀렸더라. 그래서 더 이상 사용하지 않는다.
복잡하지 마라: 너무 다양한 지표와 다양한 데이터셋을 포함하는 건 좋지 않다. HELM 는 공을 많이 들였겠지만 복잡하다.
실행시간이 너무 긴 건 좋지 않다: 피로감도 높고 새로운 아이디어를 제시하고 확인하기까지 오래 걸린다. BIG-Bench 가 그렇다.
평가가 의미가 있어야 한다: 예컨대, BIG-Bench Hard 는 영화 추천이나 괄호 잘 닫았는지 확인한다. 이런 성능이 높은 게 과연 좋은 모델일까?
채점이 매우 정확해야 한다: 디버깅해보니 채점이 이상을 느끼면 연구자들은 빠르게 사용하지 않게 된다.
빠르게 정복되선 안된다: SuperGLUE 는 다 좋은데 너무나 빠르게 함락되었다.

뒤에는 그의 견해가 많이 나오는데, 이걸 옮기려니 의미가 훼손되는 것 같아 저는 여기까지만 남겨두겠습니다. 감사합니다.

이 글이 진짜 재밌어서 저도 입문했는데 시간되시면 보셔요!

https://heygeronimo.tistory.com/93

[Insight] Some intuitions about large language models

블로그명: Some intuitions about large language models 블로그 링크: https://www.jasonwei.net/blog/some-intuitions-about-large-language-models Some intuitions about large language models — Jason Wei An open question these days is why large languag

heygeronimo.tistory.com

저작자표시 (새창열림)

'NLP > Insight' 카테고리의 다른 글

[Insight] Some intuitions about large language models (0)	2024.03.05

자연어천재만재

[Insight] Successful language model evals

평가지표가 중요한 세대

성공적인 평가지표는 무엇인가

1. 훌륭한 데이터셋은 뛰어난 모델/논문을 알아본다

2. 뛰어난 데이터셋은 성능 측정도 직관적인 숫자이면서 중요한 의미를 담는다

'NLP > Insight' 카테고리의 다른 글

티스토리툴바

[Insight] Successful language model evals

평가지표가 중요한 세대

성공적인 평가지표는 무엇인가

1. 훌륭한 데이터셋은 뛰어난 모델/논문을 알아본다

2. 뛰어난 데이터셋은 성능 측정도 직관적인 숫자이면서 중요한 의미를 담는다

'NLP > Insight' 카테고리의 다른 글

'NLP/Insight' Related Articles

티스토리툴바