논문명: Detoxifying Text with MaRCo: Controllable Revision with Experts and Anti-Experts
논문링크: https://aclanthology.org/2023.acl-short.21/
핵심만 설명합니다. 참고로 MARCO 는 MSMARCO 아니고 그냥 방법명의 약자입니다.
핵심
- Toxic LM: 독성 가득한 텍스트로 잔뜩 학습해둔 모델
- Non-Toxic LM: 독성 없는 텍스트로 학습한 모델
- 독성 가득한 토큰 찾는 법: Toxic LM의 생성 확률은 높은데, Non-Toxic LM 이 낮으면 수상하니 일단 가리자
- Base LM + Non-Toxic LM - Toxic LM = 일반적인 상식 + 독성 제거 - 독성 = 제일 좋은 결과!