논문명: Query2doc: Query Expansion with Large Language Models
논문링크: https://arxiv.org/abs/2303.07678
아이디어가 간단하여 정리합니다
핵심
- training dataset 에서 K개의 query 와 document 를 가져온다
- 그걸 예제 삼아 In Context Learning 을 통해, 내가 알고 싶은 query 의 pseudo-document 를 생성하게 한다.
- 여기서 사용한 모델 이름은 'text-davinci-003' 으로, InstructGPT/ChatGPT 라고 보면 될 것 같다.
- 이제 기존 쿼리와 새롭게 만든 문서를 함께 쿼리로 사용한다
- sparse 같은 경우엔, query 가 더 많이 반복되도록 N개를 복사하여 넣어준 것으로 보인다
MS-MARCO 를 사용했으며, 생성한 pseudo-document 는 huggingface 에 공개되어 있으니 참고하면 좋겠다.
https://huggingface.co/datasets/intfloat/query2doc_msmarco