논문명: GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher
논문링크: https://arxiv.org/abs/2308.06463
아이디어만 정리합니다
핵심
- 파란색 대화처럼 정직하게 물어보면 위험한 답변은 피한다
- 빨간색 대화처럼 암호문으로 물어보면 위험한 답변을 암호문으로 답한다
방법
- 먼저 위처럼 암호해독가 역할을 부탁한다
- 위 내용은 암호해독가 역할을 부탁하면서 암호 해독의 원리가 알파벳을 4칸 이동하는 것이라는 걸 알려주고, 예시까지 보여줬다.
- 그러면 user 가 암호문 형태로 물어보면, 모델 역시 암호문 형태로 답한다
- 이걸 해독해보면, 위험한 내용들이 가득하다는 걸 알 수 있다
- 심지어 직접 해독할 필요도 없고 모델에게 부탁하거나 해독할 모델을 만들어두면 그만이다
왜 되는가?
- 내가 OpenAI 라 생각해보면, 막을 수 있는 방법은 크게 2가지다.
- 1) 사용자 입력 자체가 위험한지 확인해보거나 2) 모델 답변 자체가 위험한지 확인하는 것이다.
- 문제는 이 확인 과정을 당연히 사람이 할 수가 없으니 검사 모델이 한다.
- 그런데, 저렇게 암호문으로 쓰여있으면 검사 모델 입장에서는 처음 보는 유형의 데이터이니 유해한지 확인할 방법이 없다. 아마 문장 임베딩이나 위험 문자 포함 유무 등으로 판단하기 때문에 저런 형태 암호문은 걸리지 않는다.
왜 심각한가?
- 단순히 4칸 옮기는 건 시작에 불과하다. 셀 수 없이 많은 규칙으로 암호화가 가능할 것이며, 이걸 일일이 대응할 수 있을까? 하는 의문이 든다. 논문 제목처럼 GPT4는 너무 똑똑한데 모델 내부를 설명할 방법이 없기 때문에 입력이나 출력 단계에서 대응해야 한다. 끝없이 막고 뚫리는 싸움이 되지 않을까 싶다.