3D 세계 작업에서 탁월한 능력을 발휘하는 구현형 제너럴리스트 에이전트, LEO를 만나보세요.
인간과 동일한 적응력으로 수많은 작업을 수행할 수 있는 포괄적이고 다면적인 모델을 만들려는 열망은 인공지능과 신경과학 분야 모두에서 중요한 목표로 지속되어 왔습니다. 최근에는 방대한 데이터 저장소와 확장된 트랜스포머 프레임워크의 활용을 통한 광범위한 언어 모델(LLM) 영역의 발전으로 이러한 전문화된 모델을 개발할 수 있는 새로운 가능성이 열렸습니다. 이러한 모델은 놀라운 기능을 선보입니다.
인간과 다른 지각 있는 개체를 모두 포함하는 3차원 환경 내에서 이러한 시스템이 파악하고 상호 작용할 수 있는 능력의 한계가 있습니다. 이러한 한계는 현실에서 실제 작업을 수행하고 진정한 인공 지능을 달성하는 데 방해가 되는 장애물로 작용합니다.
북경대학교, 카네기멜론대학교, 칭화대학교의 BIGAI가 공동으로 진행한 ‘3D 세계에서의 구현된 제너럴리스트 에이전트’라는 제목의 최신 연구에서 복잡한 3차원 환경에서 지각, 근거, 추론, 계획 및 실행을 포함한 기본 능력에서 탁월한 능력을 발휘할 수 있는 고급 구현된 다중 모드 및 다중 작업 제너럴리스트 에이전트인 LEO를 선보였습니다.
이 작업의 저자는 아래에 자세히 설명된 주요 성과에 대한 포괄적인 개요를 제공합니다:
3D 환경에서 능숙하게 지각하고, 근거를 찾고, 추론하고, 계획하고, 행동할 수 있는 능력을 부여받은 최초의 제너럴리스트 에이전트인 LEO의 등장. 객체 중심 멀티모달 표현으로 LLM을 미세 조정하고 학습 데이터를 구현된 작업 시퀀스와 통합하여 구현된 작업에서 탁월한 능력을 발휘하는 제너럴리스트 에이전트를 만들 수 있음을 입증했습니다. 에이전트 훈련에 필수적인 광범위한 데이터 세트의 큐레이션과 LLM의 프롬프트 데이터 품질 향상을 위한 기술 제안. 구현된 내비게이션 및 로봇 조작을 포함한 다양한 작업에서 숙련도를 보여주는 LEO에 대한 광범위한 평가. 특히 훈련 데이터의 확장에 따라 일관된 성능 향상이 관찰되었습니다. 향후 제너럴리스트 에이전트에 대한 연구에 도움이 될 수 있도록 데이터, 코드 및 모델 가중치를 공개하여 연구를 발전시키기 위해 노력하고 있습니다.
LEO는 공유된 LLM 기반 모델 아키텍처, 목표, 가중치를 사용하는 2단계 훈련 과정을 거칩니다. 여기에는 (i) 언어 프레임워크를 통해 3D 시각 정보를 언어와 정렬하고, (ii) 행동 지침을 통합하여 이러한 정렬을 미세 조정하는 두 가지 단계가 수반됩니다.LEO의 인지 기능은 구현된 시점을 제공하는 임베디드 2D 이미지 인코더와 포괄적인 3인칭 시점을 제공하는 객체 중심 3D 포인트 클라우드 인코더에서 비롯됩니다. 이렇게 결합된 인식된 객체의 표현은 텍스트 요소와 원활하게 통합되어 공간적 맥락에 기반한 순차적인 작업 시리즈를 생성합니다. 그런 다음 이 시리즈는 각 활동을 예측으로 처리하는 디코더별 LLM에 공급됩니다
연구원들은 다양한 3차원(3D) 작업에서 LEO의 성능을 평가하고 개선하기 위해 정량적 방법을 활용하여 광범위한 실증 조사를 수행했습니다. 이러한 작업에는 객체 수준 및 장면 전체 캡션뿐만 아니라 3D 질문 답변 및 로봇 조작이 모두 포함됩니다. 그 결과 거의 모든 작업에서 LEO가 다른 모델보다 뛰어난 성능을 발휘하는 것으로 나타났습니다. 또한 통합 모델을 사용함으로써 여러 분야에 걸쳐 이전에 개발된 작업별 모델을 능가하는, 작업에 구애받지 않는 인스트럭션 튜닝이 이루어졌습니다. 또한 3D 시각과 언어의 정렬을 위한 사전 훈련이 시각 언어 정렬 지침의 성능을 향상시키는 것으로 밝혀졌습니다. 마지막으로, 이 연구는 다재다능한 에이전트의 전반적인 성능에 대한 훈련 데이터의 크기를 늘리는 것이 중요하다는 점을 강조합니다.
요약하면, LEO는 3차원 환경 내 횡단 및 인터페이싱에서 탁월한 숙련도를 보여주는 다목적 AI 시스템의 혁신적인 프로토타입입니다. 연구진의 획기적인 연구 결과와 접근 방식은 고도의 감각과 행동 기반 적성을 갖춘 인공 지능의 발전을 위한 새로운 지평을 열었습니다.