본문 바로가기

NLP/논문이해

[논문이해] Query2doc: Query Expansion with Large Language Models

논문명: Query2doc: Query Expansion with Large Language Models

논문링크: https://arxiv.org/abs/2303.07678

 

Query2doc: Query Expansion with Large Language Models

This paper introduces a simple yet effective query expansion approach, denoted as query2doc, to improve both sparse and dense retrieval systems. The proposed method first generates pseudo-documents by few-shot prompting large language models (LLMs), and th

arxiv.org

 

아이디어가 간단하여 정리합니다


핵심

  • training dataset 에서 K개의 query 와 document 를 가져온다
  • 그걸 예제 삼아 In Context Learning 을 통해, 내가 알고 싶은 query 의 pseudo-document 를 생성하게 한다.
  • 여기서 사용한 모델 이름은 'text-davinci-003' 으로, InstructGPT/ChatGPT 라고 보면 될 것 같다.

 

sparse retrieval

 

dense retrieval

 

  • 이제 기존 쿼리와 새롭게 만든 문서를 함께 쿼리로 사용한다
  • sparse 같은 경우엔, query 가 더 많이 반복되도록 N개를 복사하여 넣어준 것으로 보인다

 

MS-MARCO 를 사용했으며, 생성한 pseudo-document 는 huggingface 에 공개되어 있으니 참고하면 좋겠다.

 

https://huggingface.co/datasets/intfloat/query2doc_msmarco