LUMOS: 일반화 가능한 오픈 소스 언어 에이전트 교육 프레임워크
단순히 문의에 응답하는 것뿐만 아니라 인터넷 검색, 복잡한 수학적 딜레마 해결, 프로그램 공식화, 시각 및 텍스트 게임 패턴 추론까지 가능한 전자 도우미를 상상하는 것은 실현 불가능한 환상처럼 보일 수 있습니다. 하지만 인공지능의 기능을 훨씬 더 쉽고 명쾌하게 이용할 수 있는 LUMOS의 등장으로 인공지능의 혁신적인 변화를 준비하세요.
주목할 만한 성과로 앨런 인공 지능 연구소, 캘리포니아 대학교 로스앤젤레스, 워싱턴 대학교의 전문가들은 언어 처리 시스템과의 상호 작용을 혁신하도록 설계된 오픈 소스 플랫폼인 LUMOS를 소개했습니다. 불투명할 수 있는 기존의 독점적인 대안과 달리 LUMOS는 탁월한 비용 효율성, 명확성 및 복제 가능성을 제공하여 인공 지능 기술 영역에서 선구자로 자리매김하고 있습니다.
LUMOS는 고유한 기능과 잠재적인 애플리케이션으로 인해 AI 커뮤니티 내에서 큰 관심을 불러일으킨 인공지능 기술입니다. 이 획기적인 개발에 대한 포괄적인 이해를 돕기 위해 LUMOS의 기능, 성과 및 시사점을 살펴보면서 복잡한 작동 원리를 자세히 살펴봅니다.
언어 시스템을 개발하는 일반적인 접근 방식은 GPT-4 또는 ChatGPT와 같은 광범위한 독점 언어 프레임워크를 기본 구성 요소로 활용하는 것입니다. 이러한 접근 방식은 매우 효과적이지만 상당한 재정적 투자가 필요하고 내부 작동에 대한 명확성 수준이 높아야 하며 복제 가능성 및 조정 가능한 매개변수가 제한될 수 있습니다.
LUMOS 프레임워크는 오픈 소스 대규모 언어 모델(LLM)을 기반으로 하여 기존 접근 방식에서 벗어납니다. 계획 모듈, 접지 모듈, 실행 모듈의 세 가지 필수 요소로 구성된 통합된 모듈식 구조로 복잡한 환경에서 지능적인 의사 결정을 실현할 수 있습니다.
디바이스 제조업체를 정확히 파악하고 선택한 브랜드 제품의 원산지를 공개합니다.
접지 모듈은 이러한 높은 목표 상태를 실행 단계 내에서 다양한 도구로 수행할 수 있는 구현 가능한 낮은 수준의 활동으로 변환합니다. 예를 들어, 초기 목표는 시각적 질의응답 시스템을 활용하여 그림에 표시된 전자기기의 브랜드명을 인식하는 것을 목표로 하는 “VQA( , 어떻게 인식하십니까…?)“와 같은 작업으로 변환될 수 있습니다.
실행 모듈은 애플리케이션 프로그래밍 인터페이스(API), 인공 신경망, 디지털 시뮬레이션 등 다양한 기존 구성 요소로 구성되어 있으며, 계획 및 접지 모듈에서 지정한 접지 작업을 수행할 수 있습니다. 결과적으로 구현된 작업에서 파생된 피드백은 이후 에이전트 행동의 후속 적응 주기를 위해 계획 및 접지 모듈로 전달됩니다.
LUMOS의 중요한 장점 중 하나는 모듈식 아키텍처를 통해 원활한 개선이 가능하고 다양한 인터랙티브 애플리케이션에 걸쳐 그 잠재력을 확장할 수 있다는 점입니다. 계획, 접지, 실행 요소가 분리되어 있어 연구자가 특정 구성 요소를 나머지 요소와 독립적으로 수정하거나 교환할 수 있으므로 유연성과 적응성이 향상됩니다.
연구자들은 질문 답변, 수학, 코딩, 웹 브라우징, 멀티모달 추론 등 다양하고 복잡한 대화형 작업에 걸쳐 수많은 근거 추론 근거에서 선별한 56,000개 이상의 주석으로 구성된 광범위하고 뛰어난 품질의 데이터 세트를 구축했습니다. 이 기념비적인 작업은 GPT-4와 기타 최신 언어 모델을 모두 활용하여 기존 벤치마크를 LUMOS 프레임워크와 완벽하게 일치하는 통일된 형식으로 변환함으로써 달성되었습니다. 그 결과, 이 데이터 세트는 언어 에이전트 교육에 사용되는 가장 방대한 공개 리소스 중 하나로, 규모가 크지 않은 언어 모델도 다양하고 복잡한 시나리오에서 효과적인 미세 조정을 받을 수 있도록 지원합니다.
9가지 데이터 세트의 평가 결과에 따르면 LUMOS는 여러 가지 주목할 만한 강점이 있는 것으로 나타났습니다. 이 에이전트는 질문 답변 및 웹 탐색을 포함한 모든 유형의 작업에서 여러 대형 오픈 소스 대안보다 일관되게 더 나은 성능을 보였으며, 특정 사례에서는 GPT 모델을 능가하기도 했습니다. 또한 연쇄 사고 및 모듈화되지 않은 통합 훈련과 같은 대체 기술을 사용하여 훈련된 다른 에이전트보다 더 뛰어난 성능을 보였습니다. 가장 인상적인 점은 LUMOS가 일반화 능력이 뛰어나 훈련 경험을 벗어난 새로운 환경이나 동작이 포함된 작업에 직면했을 때 수십억 규모(WizardLM-30B 및 Vicuna-v1.3-33B)와 도메인별 에이전트 모두에 비해 우수한 성능을 달성했다는 점입니다.
LUMOS는 뛰어난 성능과 강력한 일반화 가능성으로 복잡한 대화형 작업을 수행하도록 맞춤화된 비용 효율적이고 투명하며 복제 가능한 언어 모델을 만드는 데 있어 상당한 발전을 구현합니다.
논문, HF 페이지, 및 Github 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들께는 흥미롭고 가치 있다고 생각되는 최신 노력과 업데이트에 대한 정보를 얻을 수 있는 훌륭한 플랫폼인 뉴스레터를 구독해 주시기를 진심으로 초대합니다.
현재 39,000명 이상의 회원을 보유한 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
Unistream은 오픈 소스 도메인과 같은 대규모 언어 모델을 기반으로 AI 에이전트를 훈련하기 위한 포괄적이고 통합적인 접근 방식을 제공하는 선구적인 프레임워크입니다.
새로운 기능:
🤖️Multimodal 추론 𝕃𝕦𝕞𝕠𝕤
🐘 13B 규모 𝕃𝕦𝕞𝕠𝕤 모델
🤗 𝕃𝕦𝕞𝕠𝕤 데이터-익스플로러 데모 @ai2_mosaic @uclanlp📝:… pic.twitter.com/RmjitjAi3w
- 다인 (@Wade_Yin9712) 2024년 3월 29일
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 등 저명한 기관의 저명한 인사들이 정기적으로 구독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독해 보세요.