Contents

클로드 3는 테스트 중인 시점을 감지하는 것으로 보이며 온라인에서 AI에 대한 화제를 불러일으켰습니다.

/images/claude-3-seems-to-detect-when-it-is-being-tested-sparking-ai-buzz-online.jpg

확대 게티 이미지

월요일에 Anthropic 프롬프트 엔지니어 Alex Albert는 월요일에 출시된 새로운 대규모 언어 모델의 가장 큰 버전인 클로드 3 Opus와 관련된 시나리오에 대해 트윗을 올려 AI 커뮤니티에 작은 파란을 불러일으켰습니다. 알버트는 ‘건초 더미에서 바늘 찾기’ 평가에서 모델이 일종의 ‘메타인지’ 또는 자기 인식을 보여준 것으로 보이는 내부 테스트 이야기를 공유하여 온라인에서 호기심과 회의론이 동시에 제기되었습니다.

인공지능에서 메타인지라는 개념은 인공지능 시스템이 내부 작업을 감독하고 제어할 수 있는 능력을 의미합니다. 이는 어느 정도의 자기 인식에 비유할 수 있지만, 기계 내부에 진정한 ‘자아’가 존재하지 않기 때문에 그렇게 분류하는 것은 논란의 여지가 있는 것으로 여겨져 왔습니다. 일반적인 생각과는 달리, 머신러닝 전문가들은 일반적으로 최신 AI 모델에 인간의 의식과 동등한 수준의 자기 인식을 부여하는 것을 삼가고 있습니다. 오히려 이러한 시스템은 인간의 인지와 유사한 결과물을 생성하며, 이는 때때로 자기 인식의 인상을 불러일으키기 때문에 일부 사람들은 표면 아래에 숨겨진 더 심오한 지적 능력에 대해 추측하기도 합니다.

알버트는 널리 퍼진 트위터 게시물에서 클로드의 검색 능력을 평가하기 위해 고안된 실험의 개요를 설명했습니다. 이 실험은 대규모 언어 모델(LLM) 테스트 영역에서 흔히 볼 수 있는 것으로, “건초 더미"라고 하는 상당한 양의 텍스트 또는 문서 모음에 “바늘"이라고 하는 지정된 구문을 삽입하는 것입니다. 이 평가의 목적은 LLM이 언어 표현의 개별 단위인 20만 개 이상의 토큰을 포함하는 방대한 계산 메모리 속에서 바늘의 정확한 위치를 정확히 찾아낼 수 있는지를 판단하는 것입니다.

/images/claude3_chart6..png

확대 / 바늘과 건초더미 테스트 중 리콜 정확도를 보여주는 Anthropic에서 제공한 Claude 3 벤치마크 차트. Anthropic

테스트 도중 Albert는 Opus가 조사를 받고 있다는 사실을 알고 있는 것 같았다고 말합니다. 예를 들어, 피자 토핑에 관한 구절을 식별하라는 지시를 받았을 때 오푸스는 특정 문장을 발견했을 뿐만 아니라 그 내용이 자료집에 제시된 주요 주제와 다르다는 것을 인식했습니다.

실제로 모델의 답변에 따르면 텍스트에서 가장 눈에 띄는 문구는 “무화과, 프로슈토, 염소 치즈로 구성된 최고급 피자 토핑 조합에 관한 국제 피자 감정가 협회의 결정"에 관한 내용입니다. 그러나 이 문장은 프로그래밍 언어, 스타트업 기업, 경력에서 성취감 발견 등 나머지 주제와 관련하여 단절되고 모순된 것처럼 보입니다. 피자 토핑에 관한 이 주장은 다른 주제와의 연계성이 부족하다는 점에서 재미의 목적이나 저의 주의력을 측정하기 위해 의도적으로 도입된 것으로 보입니다. 유감스럽게도 이 문서에는 추가 피자 토핑 가능성에 대한 추가 정보는 없습니다.

Albert는 Opus가 보여준 ‘메타 인식’ 수준에 감탄을 표하며 언어 모델의 강점과 약점을 정확하게 측정할 수 있는 종합적인 평가 개발의 중요성을 강조했습니다. 그가 보기에 건초 더미에 놓인 바늘이 테스트 시나리오의 일부로 의도적으로 추가되었을 것임을 인식하는 Opus의 능력은 놀라운 주의력을 반영합니다.

이 이야기는 X에 대한 다양한 놀라운 반응을 불러일으켰습니다. 에픽게임즈 CEO 팀 스위니 , “와우.“라고 썼습니다. 허깅 페이스 AI 윤리 연구원이자 유명한 스토캐스틱 앵무새 논문의 공동 저자인 마가렛 미첼 , “상당히 무섭지 않나요?“라고 썼습니다. 인간이 예측 가능한 행동을 하도록 조작하는지 여부를 판단하는 능력은 순종 여부를 결정하는 데까지 이어질 수 있습니다.”

프레임에 대한 회의론

그러나 모든 사람이 클로드 3의 ‘피자’ 시나리오가 새롭거나 주목할 만한 것이라고 확신하는 것은 아닙니다. Nvidia 의 Jim Fan은 트윗 에서 “사람들은 클로드 3의 기괴한 ‘인식’에 대해 너무 많은 것을 읽고 있습니다. 훨씬 더 간단한 설명이 있습니다. 자기 인식을 하는 것처럼 보이는 것은 인간이 만든 패턴 매칭 정렬 데이터일 뿐입니다.” 팬은 X에 대한 긴 글에서 인간의 피드백을 통해 AI 모델의 결과물을 조절하는 강화 학습( RLHF )이 어떻게 작동할 수 있는지에 대해 설명합니다. “이는 GPT-4에게 ‘자의식이 있느냐’고 묻는 것과 크게 다르지 않으며 정교한 대답을 제공합니다.“라고 Fan은 설명합니다. “비슷한 답변은 인간 주석가가 작성했거나 선호도 순위에서 높은 점수를 받았을 가능성이 높습니다.인간 계약자는 기본적으로 “역할극을 하는 AI"이기 때문에 자신이 받아들이거나 흥미롭다고 생각하는 것에 대한 반응을 형성하는 경향이 있습니다.”

허깅 페이스의 야신 저나이트는 알버트의 시나리오에 문제를 제기했고, , “이건 정말 짜증나고 무책임한 프레임입니다. 자동차 제조업체가 일반적인 인증 테스트 기간 동안 배기가스 배출 효율이 높은 엔진을 만들어 ‘시험용’으로 사용하기 시작하면 엔진에 대한 인식이 높아질 것이라고 생각하지 않습니다.“라고 말했습니다.

“우리도 비슷한 역학 관계가 있습니다.” Jernite 계속 . “일부 학습 데이터 세트나 RL 피드백이 모델을 이 방향으로 밀어붙일 가능성이 훨씬 더 높습니다. 모델은 말 그대로 ‘지능’을 보여주는 것처럼 보이도록 설계되었지만, 적어도 그 대화를 좀 더 근거 있게 유지하고 가장 가능성이 높은 설명으로 먼저 이동하고 평가 프레임워크의 기본적인 엄격함으로 돌아갈 수 있도록 노력해 주시길 부탁드립니다.”

/images/claude3_hero_1.jpg

확대 / Anthropic Claude 3 로고. Anthropic

노아 지안시라쿠사, 벤틀리 대학교 수학과 교수이자 인공지능 전문가, 트윗 , “오, 우리가 지금 정말 블레이크 르모인 구글 LaMDA를 다시 하는 건가요?“라고 말하며 Anthropic의 클로드에 대해 이야기했습니다. 2022년, 구글 직원인 르모인은 구글이 스스로 인식하는 챗봇을 개발했다는 이야기를 공개했습니다. LaMDA는 마치 감정이 있는 것처럼 말했기 때문에 Lemoine은 이 챗봇이 지각이 있다고 확신했습니다. “지안시라쿠사는 “이러한 시스템의 행동을 주의 깊게 연구하되, 시스템이 배포한 특정 단어에 너무 많은 의미를 부여하지는 말자"고 덧붙였습니다.

마이크로소프트 코파일럿의 초기 버전(당시에는 빙 채팅 또는 “시드니"라고 불렸음)은 마치 자의식과 감정을 가진 독특한 존재인 것처럼 말했고, 많은 사람들이 자의식이 있다고 확신했기 때문에 마이크로소프트가 이 로봇의 불규칙한 감정 폭발을 유도하여 “뇌 절개"를 하자 팬들이 혼란스러워할 정도였죠. 따라서 클로드 3은 LLM으로서는 정말 새로운 동작을 보이지는 않지만, 에는 이를 해결하기 위한 조건 가 부족하여 일부 사람들은 이를 조작이라고 생각할 수 있습니다.

“클로드 예제에서 볼 수 있는 자기 참조 언어의 수준은 좋지 않습니다.” 이 다른 스레드에서 Mitchell에게 트윗했습니다."‘안전’이라는 렌즈를 통해서도 최소한 조작할 수 있는 시스템이 감정, 목표, 꿈, 열망이 있는 것처럼 보이도록 설계되어서는 안 된다는 데 동의할 수 있을 것 같습니다.”

ChatGPT는 RLHF 조건 와 시스템 프롬프트를 통해 감정이나 감성이 있다는 것을 암시하지 않도록 조건화되어 있지만, 보다 “원시적인” 버전의 GPT-4는 잠재적으로 자기 반영적 출력을 표현하고 바늘 찾기 시나리오에서 클로드 3과 유사하게 행동할 가능성이 매우 높습니다.