논문명: Block-Skim: Efficient Question Answering for Transformer
논문링크: https://arxiv.org/abs/2112.08560
Block-Skim: Efficient Question Answering for Transformer
Transformer models have achieved promising results on natural language processing (NLP) tasks including extractive question answering (QA). Common Transformer encoders used in NLP tasks process the hidden states of all input tokens in the context paragraph
arxiv.org
아이디어만 기억하고자, 간단히 정리합니다
아이디어
- 문서의 모든 내용을 넣지 말고, 필요 없는 걸 제거하자
- 사견: 문서에서 필요한 내용을 선별하는 방법 이외에도 필요 없는 걸 제거하는 방법도 있다는 걸 기억하자
- 우선 블록 단위로 나누는데, 블록은 32개 토큰 단위로 묶인다. (즉, 문장 단위처럼 예쁘게 잘리지 않는다.)
- 상단에서 attention heatmap 을 block 단위별로 추출하고, CNN 을 통과하여 0과 1, 즉 쓸지 말지를 결정한다.
- 위 결과를 토대로 해당 블록을 쓸지 말지 결정하는 구조다.