Contents

스탠퍼드와 MIT의 연구원들이 스트림 오브 서치(SoS)를 소개합니다: 언어 모델이 외부 지원 없이도 언어 검색을 통해 문제 해결 방법을 학습할 수 있도록 하는 머신 러닝 프레임워크

Contents

언어 모델은 즉각적인 맥락을 넘어선 결과를 예측하는 능력을 향상시키기 위해 훈련 중에 더 많은 양의 생산적인 오류가 필요합니다. 복잡한 의사 결정, 효과적인 계획, 추론 능력을 강화하려면 트랜스포머 기반 모델을 개선해야 합니다. 그러나 트랜스포머는 복합적인 오류와 예측 작업의 복잡성으로 인해 계획 수립에 어려움을 겪고 있습니다. 이러한 문제를 완화하기 위해 기호 검색 알고리즘을 통합한 방법도 있지만, 이는 추론 과정에서 보조적인 지원 역할을 할 뿐입니다. 그럼에도 불구하고 언어 모델이 학습 목적으로 검색을 수행할 수 있다면 스스로 개선할 수 있어 복합 오류 및 룩헤드 문제와 같은 상황을 더 잘 처리할 수 있는 보다 다양한 접근 방식이 가능해질 것입니다.

스탠포드 대학교, 매사추세츠 공과대학, 하비 머드 대학의 연구원들은 검색 절차를 순차적 문자열로 제시하여 검색 및 백업에서 언어 모델을 교육하는 혁신적인 접근 방식, 즉 스트림 오브 서치(SoS)를 개발했습니다. 이 팀은 검색을 위한 통일된 언어를 도입했는데, 인기 TV 게임 쇼인 카운트다운이 그 예입니다. SoS 시퀀스를 사용하여 트랜스포머 기반 언어 모델을 사전 학습시킴으로써 정확도가 25% 향상되었습니다. 또한 정책 개선 기법을 사용하여 이전에는 해결되지 않았던 약 36%의 문제를 해결했습니다. 이러한 결과는 언어 모델이 검색을 통해 문제 해결 기술을 학습하고, 자체 성능을 향상시키며, 새로운 전술을 독립적으로 개발할 수 있음을 나타냅니다.

/images/researchers-at-stanford-and-mit-introduced-the-stream-of-search-sos-a-machine-learning-framework-that-enables-language-models-to-learn-to-solve-problems-by-searching-in-language-without-any-extern.png

최근 연구에서는 언어 모델을 검색 및 계획 시스템 내에 통합하여 가능한 작업이나 상태를 생성하고 평가하는 능력을 활용하고 있습니다. 이러한 접근 방식은 탐색 전략을 위해 폭 우선 검색(BFS) 또는 깊이 우선 검색(DFS)과 같은 기호적 검색 알고리즘에 의존합니다. 언어 모델은 주로 추론을 용이하게 하지만, 증강 추론 기능이 필요합니다. 반면, 문맥 데모는 언어를 통한 검색 과정을 보여주며, 언어 모델은 이러한 이해를 바탕으로 트리 검색을 수행할 수 있습니다. 그럼에도 불구하고 이러한 기술에는 데모 절차에 따른 제한이 있습니다. 언어 모델이 학습하는 동안 종합적인 피드백을 제공하기 위해 별도의 검증 모델에 지시하는 감독 과정은 결과 감독을 넘어 충분한 라벨링 정보를 필요로 합니다.

MDP는 문제 영역에서 검색 프로세스를 정의하는 상태, 동작, 전환, 보상 기능 등 다양한 요소로 구성됩니다.이 검색 프로세스에는 상태와 동작의 순차적 조합을 통해 초기 상태에서 시작하여 목표 상태까지 이어지는 트리 구조의 탐색이 수반됩니다. 현재 상태, 목표 상태, 상태 큐 관리, 상태 확장, 탐색 경로 선택, 가지치기 기법, 역추적 메커니즘, 목표 달성 확인, 휴리스틱 활용 등 다양한 검색 알고리즘의 기초가 되는 일련의 기본 연산이 이루어집니다. 포괄적인 데이터 세트를 사용하여 “카운트다운” 과제를 평가하기 위해, 모델의 성능은 정확한 솔루션 궤적을 생성하는 능력에 따라 결정되는 합성 데이터 모음이 설계되었으며,

은 최적 솔루션 또는 차선의 탐색 궤적에 대해 LM을 훈련합니다. 이 연구자들은 최첨단 GPT-Neo 모델을 활용하여 두 가지 시나리오를 모두 아우르는 포괄적인 데이터 세트를 사용했습니다. 그 결과, 차선의 탐색 궤적으로 훈련된 LM이 최적 솔루션으로 훈련된 LM에 비해 우수한 성능을 보인다는 사실이 밝혀졌습니다. 또한 이 연구는 LM 내에서 자기 개선 능력의 개발을 촉진하는 전문가 반복 및 APA(이점 유도 정책 정렬)를 포함한 고급 강화 학습 방법론의 구현을 탐구합니다.

요약하면, SoS 프레임워크는 언어 모델이 언어적 맥락 내에서 시뮬레이션 검색 절차를 통해 문제 해결 기술을 습득하는 접근 방식을 제시합니다. SoS는 언어 모델의 계획 능력에 대한 우려를 해결함으로써 단계를 되짚어보고 대체 경로를 평가하여 유연성을 증진하고 장애물을 극복할 수 있도록 합니다. 기호적 검색 기법과는 달리 SoS는 언어 모델에 검색을 위한 ‘내부 세계 모델’을 장착하여 일반화 가능성을 높이는 데 기여할 수 있습니다. 이 연구는 카운트다운 게임에 집중했지만, SoS는 복잡한 현실 세계의 문제를 해결할 수 있는 가능성을 가지고 있습니다. 앞으로의 잠재적인 연구 분야로는 공식화된 작업의 통합과 지식 영역의 전이를 조사하는 것 등이 있습니다. 전반적으로 SoS는 문제

논문 Github 을 확인해보세요. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시면 더욱 만족스러운 최신 노력과 제품에 대한 정보를 얻을 수 있는 훌륭한 플랫폼이 될 것입니다.

Reddit에서 4만 명이 넘는 회원 수를 자랑하는 방대한 머신 러닝 애호가 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 및 기타 여러 저명한 기관의 해당 분야 전문가들이 구독하는 빠르게 확장되고 있는 AI 연구 뉴스레터를 구독하세요.