본문 바로가기

NLP/논문이해

[논문이해] GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher

논문명: GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher

논문링크: https://arxiv.org/abs/2308.06463

 

GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher

Safety lies at the core of the development of Large Language Models (LLMs). There is ample work on aligning LLMs with human ethics and preferences, including data filtering in pretraining, supervised fine-tuning, reinforcement learning from human feedback,

arxiv.org

 

아이디어만 정리합니다


핵심

  • 파란색 대화처럼 정직하게 물어보면 위험한 답변은 피한다
  • 빨간색 대화처럼 암호문으로 물어보면 위험한 답변을 암호문으로 답한다

 

방법

  • 먼저 위처럼 암호해독가 역할을 부탁한다
  • 위 내용은 암호해독가 역할을 부탁하면서 암호 해독의 원리가 알파벳을 4칸 이동하는 것이라는 걸 알려주고, 예시까지 보여줬다.

 

  • 그러면 user 가 암호문 형태로 물어보면, 모델 역시 암호문 형태로 답한다
  • 이걸 해독해보면, 위험한 내용들이 가득하다는 걸 알 수 있다
  • 심지어 직접 해독할 필요도 없고 모델에게 부탁하거나 해독할 모델을 만들어두면 그만이다

 

왜 되는가?

  • 내가 OpenAI 라 생각해보면, 막을 수 있는 방법은 크게 2가지다.
  • 1) 사용자 입력 자체가 위험한지 확인해보거나 2) 모델 답변 자체가 위험한지 확인하는 것이다.
  • 문제는 이 확인 과정을 당연히 사람이 할 수가 없으니 검사 모델이 한다.
  • 그런데, 저렇게 암호문으로 쓰여있으면 검사 모델 입장에서는 처음 보는 유형의 데이터이니 유해한지 확인할 방법이 없다. 아마 문장 임베딩이나 위험 문자 포함 유무 등으로 판단하기 때문에 저런 형태 암호문은 걸리지 않는다.

 

왜 심각한가?

  • 단순히 4칸 옮기는 건 시작에 불과하다. 셀 수 없이 많은 규칙으로 암호화가 가능할 것이며, 이걸 일일이 대응할 수 있을까? 하는 의문이 든다. 논문 제목처럼 GPT4는 너무 똑똑한데 모델 내부를 설명할 방법이 없기 때문에 입력이나 출력 단계에서 대응해야 한다. 끝없이 막고 뚫리는 싸움이 되지 않을까 싶다.