논문명: Block-Skim: Efficient Question Answering for Transformer
논문링크: https://arxiv.org/abs/2112.08560
아이디어만 기억하고자, 간단히 정리합니다
아이디어
- 문서의 모든 내용을 넣지 말고, 필요 없는 걸 제거하자
- 사견: 문서에서 필요한 내용을 선별하는 방법 이외에도 필요 없는 걸 제거하는 방법도 있다는 걸 기억하자
- 우선 블록 단위로 나누는데, 블록은 32개 토큰 단위로 묶인다. (즉, 문장 단위처럼 예쁘게 잘리지 않는다.)
- 상단에서 attention heatmap 을 block 단위별로 추출하고, CNN 을 통과하여 0과 1, 즉 쓸지 말지를 결정한다.
- 위 결과를 토대로 해당 블록을 쓸지 말지 결정하는 구조다.