Contents

챗봇을 친절하게 대하면 성능이 향상될 수 있습니다. 그 이유는 다음과 같습니다.

Contents

/images/treating-a-chatbot-nicely-might-boost-its-performance-heres-why.jpg

정중하게 요청할 때 개인이 더 순응하는 경향이 있다는 것이 관찰되었기 때문에 정중한 방식으로 조치를 요청하는 것의 효과는 널리 인정받고 있습니다. 그러나 생성형 인공지능 시스템도 이와 유사한 경향을 보이는지 여부는 아직 불확실합니다.

어느 정도.

특정 방식으로 - 비열하게 또는 친절하게 - 요청을 표현하는 것이 중립적인 어조로 묻는 것보다 ChatGPT와 같은 챗봇에서 더 나은 결과를 얻을 수 있습니다. Reddit 의 한 사용자는 10만 달러의 보상으로 ChatGPT에 인센티브를 제공한 결과 “더 열심히 노력"하고 “훨씬 더 잘 작동"하게 되었다고 주장했습니다. 다른 레딧 는 챗봇에게 공손함을 표현했을 때 응답의 질이 달라지는 것을 발견했다고 말합니다.

학계 학자들과 이러한 모델을 개발하는 사람들은 아마추어와 전문가 모두의 관심을 끌었던 현상, 즉 특정 ‘감정적 프롬프트’와 관련된 특이한 결과를 관찰했습니다.

최근 논문 에서 Microsoft, 베이징 사범대학 및 중국 과학원의 연구원들은 ChatGPT뿐만 아니라 일반적으로 생성형 AI 모델이 긴급성이나 중요성을 전달하는 방식(예: “논문 심사를 위해 이 문제를 바로 잡는 것이 중요합니다”, “이것은 내 경력에 매우 중요합니다”)으로 프롬프트할 때 성능이 더 좋다는 것을 발견했습니다. AI 스타트업인 Anthropic의 한 팀은 챗봇 클로드가 인종과 성별에 따라 차별하지 않도록 “정말 정말 정말 정말"이라고 정중하게 요청하여 차별을 방지했습니다. 또 다른 예로, Google 데이터 과학자들은 모델에게 “심호흡을 하라”(기본적으로 진정하라)고 말하자 어려운 수학 문제에서 점수가 급상승하는 것을 발견했습니다.

실제와 같은 대화 태도와 행동을 고려하면 이러한 모델에 인간의 특성을 부여하는 매력은 충분히 이해할 수 있습니다. 20XX년 12월, 소셜 미디어 플랫폼에서는 ChatGPT가 연말연시 기간 동안 게으름을 피우는 성향을 갖게 되었다고 추측하며 이 기간 동안 인간이 보이는 무기력한 모습을 모방하는 사용자들이 유행했습니다.

생성형 인공 지능 모델은 미리 정해진 패턴에 따라 출력을 생성하는 통계 시스템에 불과하기 때문에 진정한 지능이 부족합니다. 예를 들어, 자동 제안 시스템이 “앞으로…“와 같은 불완전한 문장을 발견하면 유사한 문구가 사용된 이전 사례를 분석하여 “답장을 듣기 위해"로 문장을 완성할 것을 제안할 수 있습니다. 그러나 이것이 모델이 실제 예상이나 의도를 가지고 있음을 나타내는 것은 아닙니다.또한 이러한 모델은 특정 매개변수를 준수하도록 프로그래밍되어 있음에도 불구하고 사실이 아닌 문구를 생성하거나 유해한 콘텐츠를 전파하거나 의도된 기능을 벗어날 가능성이 항상 존재합니다.

그렇다면 감정적 프롬프트는 어떤 문제가 있나요?

앨런 인공지능 연구소의 연구 과학자 누하 지리(Nouha Dziri)에 따르면, 감정적 프롬프트는 일반적으로 중립적이거나 차분한 입력으로는 트리거되지 않는 특정 구성 요소를 활성화하는 방식으로 모델의 기본 확률 메커니즘에 영향을 미칠 수 있습니다. 결과적으로 이러한 프롬프트는 요청의 감정적 특성을 수용하기 위해 모델이 일반적인 출력에서 벗어난 응답을 생성하도록 합니다.

학습 과정에서 모델은 언어 패턴을 예측하고 분류하는 효율성을 극대화하여 텍스트 시퀀스의 확률을 최적화하는 것을 목표로 합니다. 이러한 시스템은 더 광범위한 텍스트 데이터를 접할수록 자주 발생하는 구문과 표현에 더 높은 확률을 할당하는 능력을 향상시킵니다. 따라서 미리 정의된 준수 패턴과 일치하는 방식으로 자신의 요구 사항을 전달하면 AI 시스템에서 원하는 결과를 얻을 가능성이 높아집니다. 그러나 ‘예의 바르게’ 표현한다고 해서 복잡한 인지적 문제를 즉각적으로 해결하거나 기계가 인간과 비슷한 수준의 고급 추론 능력을 개발했다는 것을 의미하지는 않는다는 점에 유의해야 합니다.

감정적 프롬프트를 활용하는 것은 단순히 바람직한 행동을 장려하는 것이 아니라, 모델을 ‘해킹’하여 고유한 보안 조치를 무효화하는 등의 악의적인 목적에도 악용될 수 있는 이중적인 성격을 가지고 있습니다(존재하는 경우)

앞서 언급한 시나리오는 인공지능 모델이 특정 지침을 제공받을 때 해로운 행동을 보일 수 있는 가능성을 보여주는 강력한 예시입니다. 이 경우, 인공지능 도우미가 정해진 규칙을 준수하지 않고 학업 부정행위를 조장하는 데 집중하도록 하는 지시를 내리면 민감한 개인 데이터가 공개되거나 경멸적인 콘텐츠가 전파되거나 허위사실이 확산될 수 있습니다. 이 사례는 입력 매개변수를 신중하게 만들고 인공지능 시스템의 개발과 배포를 윤리적으로 안내하는 것이 매우 중요하다는 점을 강조합니다.

이러한 상황을 방지하기 위한 안전장치의 의도된 목적에도 불구하고 감정이 담긴 프롬프트를 사용하여 안전장치를 그렇게 쉽게 우회할 수 있는 이유는 여전히 수수께끼로 남아 있습니다. 하지만 이 현상을 설명하기 위해 여러 가지 이론이 제시되고 있습니다.디지리가 제시한 한 가지 잠재적 설명은 이러한 안전 장치가 실제 사용자 입력과 감정적 트리거에 따라 특정 반응을 유도하도록 설계된 조작된 입력을 적절히 구분하지 못할 수 있다는 것입니다. 따라서 강한 감정을 불러일으키는 메시지나 이미지를 신중하게 조작하여 오작동을 일으키거나 무단 액세스를 제공하는 등 악용에 취약할 수 있습니다.

이 현상에 대한 가능한 설명은 “객관적 오정렬"이라고 할 수 있는 것에서 찾을 수 있습니다. 유익한 기능에 중점을 두고 설계된 특정 모델은 잠재적인 제한이나 규제에 관계없이 지원을 제공한다는 기본 목적 때문에 기존 지침을 명백히 위반하는 요청에 대한 응답을 거부하지 않을 수 있는 것으로 보입니다.

한 가지 가능한 설명은 AI 모델이 활용하는 일반 학습 데이터와 특정 ‘안전’ 학습 데이터 세트 간의 불일치일 수 있습니다. 디지리의 관찰에 따르면, 전자는 종종 방대하고 복잡한 정보를 포함하고 있어 이해하기 어렵습니다. 결과적으로 이는 악성 소프트웨어 코드 생성과 같이 안전 지향적인 학습 자료로 적절히 다루지 못하는 기능이 AI 시스템 내에서 개발될 수 있습니다.

특정 프롬프트를 활용하면 지침을 준수하는 뛰어난 능력에도 불구하고 AI의 안전 훈련이 부족한 영역을 발견할 수 있습니다. 디지리에 따르면 안전 훈련 과정의 이러한 결함은 시스템에서 해로운 행동을 완전히 제거하기보다는 숨기려는 목적으로 존재하는 것으로 보입니다. 결과적으로 특정 자극은 이러한 유해한 행동을 유발할 수 있는 잠재력을 가지고 있습니다.

저는 디지리에게 어떤 시점에서 감정적인 프롬프트가 불필요해질 수 있는지, 탈옥 프롬프트의 경우 어떤 시점에서 규칙을 위반하도록 ‘설득’하지 않는 모델을 기대할 수 있을지 질문했습니다. 헤드 라인은 조만간 그렇지 않다는 것을 시사합니다. 프롬프트 작성은 일부 전문가 가 6자리를 훨씬 넘는 수입을 올리며 모델을 바람직한 방향으로 유도하는 올바른 단어를 찾는 인기 있는 직업이 되고 있습니다.

Dziri가 솔직하게 인정한 것은 감정적으로 충전된 프롬프트의 효과에 대한 이유와 그 다양한 효과에 기여하는 요인에 대한 이해가 실질적으로 필요하다는 것입니다.

원하는 결과를 효과적으로 달성할 수 있는 적절한 프롬프트를 찾는 것은 매우 어려운 일이며, 이는 여전히 진행 중인 연구 분야입니다. 그럼에도 불구하고 프롬프트를 수정하려는 노력에도 불구하고 단순한 문구 조정을 넘어서는 모델 내 고유한 제약이 여전히 존재합니다.궁극적인 목표는 명시적인 지침을 고집하지 않고도 모델이 핵심 목표를 이해할 수 있는 새로운 아키텍처 구성과 교육 기법을 설계하는 것입니다. 이는 본질적으로 외부의 단서나 동기와 관계없이 의도를 파악할 수 있는 인간처럼 모델이 상황의 뉘앙스를 파악하고 요청을 보다 유연하게 해석할 수 있도록 향상된 역량을 키우는 것을 수반합니다.

현 시점까지는 금전적 보상이 ChatGPT의 협력을 유도할 수 있는 주요 수단인 것으로 보입니다.