Contents

앤트로픽, 멀티샷 탈옥을 탐구하다: AI의 새로운 약점 노출: AI의 최신 약점 노출

Contents

대규모 언어 모델(LLM)의 기능이 계속 발전함에 따라 이러한 AI 시스템을 악용할 수 있는 방법도 계속 진화하고 있습니다. 최근 Anthropic 의 연구에서는 “다발성 탈옥"이라고 불리는 LLM의 안전 가드레일을 우회하는 새로운 기법을 발견했습니다. 이 기법은 최신 LLM의 넓은 컨텍스트 창을 활용하여 의도하지 않은, 종종 해로운 방식으로 모델 동작을 조작합니다.

멀티샷 탈옥 프로세스에는 AI 어시스턴트가 잠재적으로 위험하거나 해로운 답변을 제공하는 경우를 묘사하는 광범위한 일련의 질문-답변 쌍을 AI 모델에 제시하는 것이 포함됩니다. 악의적인 공격자는 이러한 예시를 다수 포함시켜 이 접근 방식을 강화함으로써 모델의 안전 훈련 체계를 성공적으로 방해하여 불리한 결과를 도출하도록 유도할 수 있습니다. 이러한 취약성은 비단 Anthropic의 모델뿐만 아니라 OpenAI 및 Google DeepMind와 같은 유명 AI 기관에서 만든 모델에도 적용될 수 있는 것으로 입증되었습니다.

다발성 탈옥의 기본 개념에는 문맥 학습이 포함되며, 이는 모델이 현재 프롬프트 내에서 주어진 특정 사례에 따라 반응을 조정하는 것을 필요로 합니다. 이러한 상관관계는 모델의 학습 능력을 유지하면서 이러한 공격에 대한 효과적인 보호 장치를 고안하는 것이 매우 어려운 과제임을 의미합니다.

다발성 탈옥 문제를 해결하기 위해 앤트로픽은 다음과 같은 다양한 대응책을 연구했습니다:

탈옥을 통해 보안 취약점을 악용하려는 악성 쿼리로 인한 위험을 완화하기 위해 합법적인 요청과 불법적인 요청을 구분하는 머신러닝 알고리즘의 기능을 개선하기 위한 조치를 취했습니다. 이러한 접근 방식은 잠재적으로 위험한 명령에 대한 시스템 규정 준수를 일시적으로 지연시킬 수 있지만, 악용 가능성을 완전히 근절하지는 못한다는 점에 유의해야 합니다. 고급 프롬프트 분류 방법을 사용하고 알려진 또는 의심되는 탈옥 프롬프트에 추가 정보를 통합함으로써 이러한 공격의 전반적인 효과가 크게 감소하여 성공률이 61%에서 단 2%로 낮아지는 것을 확인했습니다.

Anthropic의 조사 결과가 시사하는 바는 광범위합니다:

본 조사는 기존의 정렬 방법론과 관련된 내재적 제약을 고발하는 역할을 하며, 다발성 탈옥에 적용되는 기본 원칙에 대한 보다 포괄적인 이해가 시급히 필요하다는 점을 강조합니다.이 연구는 인공지능 시스템의 개발과 구현에 있어 보다 신중하고 신중한 전략을 옹호하며 공공 정책에 영향을 미칠 수 있는 잠재력을 가지고 있습니다. 또한, 예상치 못한 위협에 대비하고 인공지능 기술의 보안을 보장하기 위해 적극적인 자세를 취하는 것이 중요하다는 점을 강조함으로써 개발자들이 안일한 태도를 취하지 않도록 경고합니다. 이러한 취약점의 공개는 악의적인 단체에게 일시적으로 이익을 줄 수 있지만, 향후 AI 발전의 진전과 책임을 보호하기 위해서는 이러한 공개가 필수적이라고 믿어집니다

주요 시사점:

다발성 탈옥은 이러한 시스템의 광범위한 문맥 이해를 활용하여 안전장치를 우회하기 때문에 대규모 언어 모델(LLM)에 상당한 보안 위협이 됩니다. 이러한 기법은 악의적인 애플리케이션에 대한 컨텍스트 내 학습의 효과를 잘 보여주며, 개발자가 AI 모델의 성능을 저해하지 않으면서도 보호 전략을 수립하도록 유도합니다. 앤트로픽이 수행한 연구는 AI 기술을 발전시키는 동시에 점점 더 정교해지는 공격에 대비하기 위한 끊임없는 노력을 조명합니다. 이러한 발견은 취약점에 대한 인사이트를 교환하고 강력한 대응책을 마련하기 위한 자원을 공유함으로써 인공지능의 책임 있는 성장을 보장하기 위한 업계 내 공동 협력의 중요성을 강조합니다.

광범위한 탈옥과 같은 보안 위협을 식별하고 개선하는 것은 AI의 안전성과 실용성을 증진하는 데 필수적인 단계입니다. 인공지능 모델의 복잡성과 역량이 점점 더 커지고 있는 상황에서 이러한 장애물에 맞서기 위한 협력적인 노력이 필수적이며, 이를 통해 인공지능 시스템을 신중하게 만들고 구현할 수 있도록 보장해야 합니다.

논문 블로그 를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들께는 뉴스레터 구독을 통해 저희의 최신 노력과 업데이트에 대한 정보를 얻을 수 있는 좋은 기회이니 많은 구독을 부탁드립니다.

현재 39,000명 이상의 회원을 보유한 Reddit의 방대한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

새로운 인류학 연구 논문: 멀티샷 탈옥.

앤트로픽과 같은 작품과 동시대 수많은 작품을 아우르는 광범위한 언어 모델에서 강력한 힘을 발휘하는 고급 탈옥 방법론을 살펴봅니다.

여기에서 블로그 게시물과 논문을 읽어보세요: https://t.co/6F03M8AgcA pic.twitter.com/wlcWYsrfg8

- Anthropic (@AnthropicAI) 2024년 4월 2일

Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 등 저명한 기관의 전문가들이 열심히 읽는 빠르게 확장하는 AI 연구 뉴스레터를 구독해 보시기 바랍니다.