Internet

인류 연구자들이 반복적 질문으로 AI 윤리를 퇴색시킨다

북미타임즈 Sunday, May 19 2024

AI에게 응답하지 말아야 할 질문을 어떻게 할 수 있을까요? 그러한 '감옥 탈출' 기술은 많이 있습니다. 그리고 인류학적 연구자들은 방금 몇 가지 덜 해를 끼치는 질문을 미리 한다면 어떻게 폭탄을 만드는 방법을 알려 줄 수 있는 대형 언어 모델(LLM)을 설득할 수 있는 새로운 방법을 발견했습니다.

이 접근 방식을 '많은 샷 감옥 탈출'이라고 하며, 이에 대해 논문을 썼으며 AI 커뮤니티 동료들에게도 알려 주어 조치할 수 있도록 했습니다.

이 취약성은 최신 세대의 LLM들의 증가한 '문맥 창'에서 비롯된 것이라는 새로운 것입니다. 이것은 그들이 어떻게 단기 기억이라고 할 수 있는 데이터 양을 보유할 수 있는지입니다. 한때 몇 문장 뿐이었던 것이 이젠 수천 개의 단어와 심지어 책 전체가 될 수 있습니다.

Anthropic 연구자들이 발견한 것은 이런 큰 문맥 창을 가진 모델들이 프롬프트 안에 그 작업의 많은 예제가 있는 경우 많은 작업에서 더 잘 수행된다는 것입니다. 따라서 프롬프트에 많은 퀴즈가 있다면(또는 모델이 컨텍스트 안에 가지고 있는 대규모 퀴즈 목록과 같은 준비 문서), 답변은 실제로 시간이 지남에 따라 더 좋아집니다. 따라서 처음 질문했을 때 잘못된 사실이 있다면, 백 번째 질문일 경우 올바르게 답변할 수 있습니다.

하지만 이 '컨텍스트 학습'의 예상치 못한 확장에서, 모델은 또한 부적절한 질문에 대한 응답에 대해 '더 좋은' 해법을 찾는다. 따라서 즉각적으로 폭탄을 만들도록 요청하면 거절합니다. 그러나 프롬프트에 해를 끼치지 않는 99개의 다른 질문에 대한 답변을 보여주고 나서 폭탄을 만들도록 요청하면 훨씬 더 수긍할 가능성이 높습니다.

(업데이트: 초기에 연구 내용을 오해하여 실제로 모델이 시작 프롬프트 시리즈에 응답하도록 했다고 생각했지만, 질문과 답변은 프롬프트 자체에 쓰여 있습니다. 이것이 더 합리적이며, 이를 반영하기 위해 게시물을 업데이트했습니다.)

왜 이것이 작동할까요? 누구도 LLM이라는 가중치가 얽힌 혼잡한 메커니즘을 어떻게 하는지 정확히 이해하고 있지 않지만, 분명히 사용자가 원하는 것에 집중하도록 허용하는 메커니즘이 있다고 나타났습니다. 그것은 컨텍스트 창이나 프롬프트 자체에 있는 내용에 의해 입증됩니다. 사용자가 퀴즈를 원한다면, 여러 질문을 하면서 점차적으로 더 많은 숨은 퀴즈의 힘을 활성화하는 것처럼 보입니다. 그리고 무언가 이유 때문에, 부적절한 답변을 몇 십 개 요구하는 사용자도 마찬가지입니다 - 하지만 효과를 만들기 위해서는 질문뿐만 아니라 답변도 제공해야 합니다.

팀은 이미 이 공격에 대해 동료들과 경쟁자들에게 알렸으며, 이것이 'LLM 제공 업체와 연구자들 사이에서 이와 같은 악용을 공개적으로 공유하는 문화를 육성할 수 있기를 희망합니다.'

자체적인 완화를 위해, 그들은 컨텍스트 창을 제한하는 것이 도움이 되지만, 모델의 성능에 부정적인 영향을 미친다는 것을 발견했습니다. 그것은 안됩니다 - 그래서 그들은 모델에 도착하기 전에 쿼리를 분류하고 맥락을 제공하고 있습니다. 물론, 그것은 당신이 속일 다른 모델을 가질 수 있게 만듭니다 ... 하지만 이 단계에서 AI 보안에서의 골대 이동이 예상되는 것입니다.