Contents

애리조나 주립대학교의 이 AI 논문에서는 대규모 언어 모델(LLM)이 추론하고 계획할 수 있는지에 대해 논의합니다.

Contents

인공 지능(AI) 영역의 혁신적인 발전인 대규모 언어 모델(LLM)은 인터넷에서 파생된 대규모 데이터 세트를 사용하여 방대한 양의 텍스트를 생성하고 완성하는 인상적인 능력이 특징입니다. 이 강력한 모델은 이러한 과정을 통해 광범위한 인간 지식을 효과적으로 흡수하여 고급 텍스트 완성 시스템의 특징인 언어 패턴을 보여주는 놀라운 언어 생성 및 텍스트 완성 능력을 갖추게 되었습니다.

LLM은 그 능력을 완전히 파악하기 위해 전체 인류를 위한 외부 인지 자원과 유사한 방대하고 신뢰할 수 없는 지식의 저장소로 개념화할 수 있습니다. 텍스트 프롬프트에 대한 응답을 단어 단위로 재구성하는 과정은 기존 검색 엔진처럼 정확한 정보 기억 대신 확률 계산에 의존하는 LLM이 탁월한 능력을 발휘하는 부분입니다. 근사치 검색이라고 하는 이 방법을 통해 LLM은 완전한 답변을 저장하는 대신 새로운 결과물을 생성할 수 있습니다.

언어 모델(LLM)이 언어적 생산을 넘어 비판적 사고와 전략적 계획이 필요한 작업까지 아우를 수 있는 역량을 갖추고 있는지에 대한 질문은 논쟁의 대상이 되어 왔습니다. 기존의 인공 지능 시스템과 인간은 일반적으로 의사 결정 과정의 일부로 복잡한 계산과 검색을 특징으로 하는 원칙적 추론을 사용합니다. 그러나 이러한 개체와 달리 LLM은 학습 과정이나 운영 과정에서 본질적으로 그러한 경향을 보이지 않습니다.

최근 한 연구자 그룹이 실시한 조사에서는 LLM과 같은 언어 모델이 추론하고 계획을 수립하는 능력을 가지고 있는지를 확인하고자 했습니다. 이 조사는 이러한 모델이 단순히 기억 회상을 통해 패턴을 복제하는 것이 아니라 추론 과정에서 기본 원칙에 의존하는 정도에 대한 타당한 우려를 제기합니다. 이러한 차별화는 진정한 문제 해결 능력과 단순한 암기된 답변을 구별하는 것과 관련이 있기 때문에 점점 더 중요해지고 있습니다. LLM이 광범위한 문제 데이터베이스로 훈련을 받으면서 진정한 문제 해결의 사례와 학습된 반복을 구분하는 것이 점점 더 어려워지고 있습니다.

문제 해결 능력 측면에서 대규모 언어 모델(LLM)의 인지 능력을 측정하기 위한 평가 결과는 일관성이 부족하다는 것을 보여주었습니다. 처음에 국제 기획 경연대회에서 파생된 기획 과제를 사용하여 실시한 테스트는 LLM의 기획 능력의 한계에 관한 소문에 이의를 제기했습니다.그러나 GPT-3.5 및 GPT-4를 비롯한 고급 LLM 반복을 사용한 후속 연구에 따르면 특정 전문 분야에 따라 정밀도 수준이 다르지만 계획 생성에 있어 점진적인 발전이 이루어지고 있는 것으로 나타났습니다.

계획 문제에 대한 대규모 언어 모델을 미세 조정하면 효과적인 계획을 생성하는 능력을 향상시킬 수 있지만, 이 방법은 실제 계획 기능보다는 주로 메모리 리콜에 의존한다는 점에 유의할 필요가 있습니다.

다른 접근 방식은 미래 행동에 대한 초기 추정을 향상시키기 위해 LLM에 힌트나 제안을 제공하는 것입니다. 이 전략은 결과를 개선할 수 있지만, 최종 응답의 유효성을 검증하고, 유도적 단서와 자율적 단서를 구분하며, 이러한 프롬프트가 LLM의 문제 이해에 진정으로 기여하는지 아니면 단순히 답변을 재고하도록 유도하는지를 판단하는 것과 관련된 문제가 있습니다.

권장되는 접근 방식은 외부 모델 기반 솔루션 검증 도구를 활용하여 대규모 언어 모델(LLM)의 작동을 시작하면서 그 출력의 정확성을 보장하는 것입니다. 반대로, 사람에게 반복적으로 확인을 요청하면 LLM의 평가가 사람의 자극에 영향을 받을 수 있는 클레버 한스 현상이 발생할 수 있습니다. LLM이 창의적인 아이디어를 창출하는 주요 기능과는 달리 반복적인 비판을 통한 자기 개선에 탁월하다고 주장할 만한 경험적 데이터는 충분하지 않습니다.

본질적으로 대규모 언어 모델(LLM)은 언어 생산에 있어 인상적인 능력을 보여주지만, 진정한 추론이나 전략 수립 능력을 뒷받침하는 경험적 증거는 여전히 제한적입니다. 그럼에도 불구하고 개념 생성 및 잠재적 솔루션 고안에 대한 적성은 특히 내장된 검증 메커니즘을 갖춘 구조화된 맥락에서 주목할 만한 강점으로 두드러집니다.

논문 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시기 바랍니다. 뉴스레터는 저희의 최신 노력과 개발에 대한 정보를 얻을 수 있는 훌륭한 플랫폼으로, 여러분을 더욱 기쁘게 해드릴 것이라고 확신합니다.

현재 39,000명 이상의 회원을 보유한 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

Google, NVIDIA, Meta, 스탠포드 대학, 매사추세츠 공과대학, Microsoft 및 이 분야의 수많은 다른 선도 기관의 저명한 학자들이 정기적으로 구독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.