본문 바로가기

NLP/논문이해

[논문이해] SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization

논문명: SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization

논문링크: https://arxiv.org/abs/2212.10465

 

SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization

We present SODA: the first publicly available, million-scale high-quality social dialogue dataset. In contrast to most existing crowdsourced, small-scale dialogue corpora, we distill 1.5M socially-grounded dialogues from a large language model (InstructGPT

arxiv.org

 

아이디어만 정리합니다. ChatGPT 를 기발하게 증강했다고 생각했고, 코드 및 데이터도 모두 공개했길래 정리합니다.

 

https://github.com/skywalker023/sodaverse

 

GitHub - skywalker023/sodaverse: 🥤🧑🏻‍🚀Code and dataset for our paper - "SODA: Million-scale Dialogue Distillation

🥤🧑🏻‍🚀Code and dataset for our paper - "SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization" - GitHub - skywalker023/sodaverse: 🥤🧑🏻‍🚀Code and dataset for ou...

github.com


아이디어

  • 원래 Commonsense Knowledge graph 가 있다. 위 그림처럼 생겼다.
  • Sentence-form 으로 바꿔 줄 건데, PersonX PersonY 를 사람 이름 데이터로 무작위로 바꿨다.

 

  • 그 다음 InstructGPT 한테 부탁해서 2, 3개문장의 짧은 이야기로 바꿔달라고 한다
  • sentence form → Narrative 로 바뀌는 과정이다

 

  • 마지막으로 InstructGPT한테 부탁해서 관련대화를 생성한다

 

이렇게 만든 데이터셋이 기존 데이터셋보다 다양성, 양 등 다양한 평가지표에서 좋았다. 그리고 이걸 토대로 모델을 학습했더니 대화형태에서도 좋은 성능을 보였다고 한다.

 

핵심은 기존 Knowledge graph 를 기반으로 증강하니, 탄탄한 데이터셋이 나왔다는 것이다. 그리고 사실 기반이면서 자동화도 가능한 점이 좋은 것 같다.