[논문이해] Should You Mask 15% in Masked Language Modeling?

논문명: Should You Mask 15% in Masked Language Modeling?

Should You Mask 15% in Masked Language Modeling?

Masked language models (MLMs) conventionally mask 15% of tokens due to the belief that more masking would leave insufficient context to learn good representations; this masking rate has been widely used, regardless of model sizes or masking strategies. In

arxiv.org

일부 아이디어만 정리합니다

아이디어

Masking Ratio 를 40%로 올렸더니, 성능이 더 오르더라
80%도 성능이 그렇게 나쁘지 않더라 → 이 말을 하는 저자의 의도를 추측해보자면, 80%도 성능을 올리는데 기여하는숫자다. 즉 모델 크기를 많이 키우는 요즘 추세에 맞춰서, 더 큰 모델에겐 80%가 더 잘 작동할 수 있을 것이다

모델 크기가 클수록 Masking Ratio 를 올려주니 더 잘하더라

Masking 을 이해하는 2가지 관점

Corruption: masking 양이 증가할수록 난이도 역시 증가하기 때문에 해당 task 의 난이도를 조절할 수 있을 것이다
Prediction: prediction 의 양을 늘리는 것이 데이터 양을 조절하는 효과가 있어 최적화를 조절할 수 있을 것이다

저작자표시 (새창열림)

'NLP > 논문이해' 카테고리의 다른 글

[논문이해] BLEURT: Learning Robust Metrics for Text Generation (0)	2023.09.22
[논문이해] Active Retrieval Augmented Generation (0)	2023.09.15
[논문이해] SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization (0)	2023.09.13
[논문이해] Pre-Training to Learn in Context (0)	2023.09.07
[논문이해] Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for Long Sequences (0)	2023.09.07

자연어천재만재

[논문이해] Should You Mask 15% in Masked Language Modeling?

아이디어

Masking 을 이해하는 2가지 관점

'NLP > 논문이해' 카테고리의 다른 글

티스토리툴바

[논문이해] Should You Mask 15% in Masked Language Modeling?

아이디어

Masking 을 이해하는 2가지 관점

'NLP > 논문이해' 카테고리의 다른 글

'NLP/논문이해' Related Articles

티스토리툴바