Apple, 대규모 언어 모델의 용도를 변경하여 구현된 AI의 강화 학습 과제 해결
대규모 언어 모델(LLM)의 등장은 언어 이해 영역에서 중요한 전환점이 되었으며, 복잡하게 구현된 시각적 작업에 고급 능력을 활용할 수 있는 새로운 가능성을 열어주었습니다. 이 혁신의 최전선에서는 LLM이 다양한 상황에서 손쉽게 번역할 수 있는 다재다능하고 보편적으로 적용할 수 있는 정책 프레임워크의 기반이 될 수 있는지 알아보고자 합니다.
Apple의 혁신적인 연구팀은 최근 “구현된 작업을 위한 일반화 가능한 정책으로서의 대규모 언어 모델"이라는 제목의 논문에서 대규모 언어 모델을 구현된 인공 지능의 강화 학습 작업에 성공적으로 적용하여 기존 벤치마크 및 기존의 제로 샷 LLM 접근 방식에 비해 주목할 만한 1.7배의 향상을 가져온 대규모 언어 모델 강화 학습 정책(LLaRP)을 소개합니다.
LLaRP 방법은 기존의 대규모 언어 모델을 활용하여 구현된 작업에서 발생하는 복잡한 의사 결정 시나리오를 처리하기 위한 혁신적인 시도입니다. 본질적으로 이 프로세스는 중심 문제를 부분 관측 가능한 마르코프 의사 결정 프로세스(POMDP)로 공식화하는 것을 포함하며, 여기에는 작업 관련 지침과 현재 시점에서 얻은 시각적 파생 정보를 모두 고려해야 합니다. 이러한 다양한 데이터 유형을 수용하기 위해 LLM 임베딩 또는 특수 비전 인코더를 사용하여 적절한 형식으로 변환합니다. 일단 준비되면 이러한 표현은 잘 구축된 LLM의 입력으로 사용되며, 숨겨진 출력은 적절한 동작과 값에 대한 예측으로 변환됩니다. 참고로, 전체 시스템은 온라인 강화를 통해 지속적인 학습을 거칩니다
의역 탄력성(PR) 및 교차 작업 일반화 가능성(CTG).
LLaRP는 문제 표현(PR)과 배경 지식(BK) 차원을 모두 아우르는 1,000개 이상의 생소한 과제에 대해 세심한 평가를 거쳐 42%의 놀라운 성공률을 기록했습니다. 이는 LSTM 중심의 다른 접근 방식이 달성한 25%의 성과는 물론, 제로 샷 LLM 구현의 22%를 뛰어넘는 수치입니다. 특히, LLaRP는 혁신적인 지시에 직면했을 때와 이전에 접해보지 못한 작업을 할당했을 때 모든 벤치마크에 비해 뛰어난 성능을 보였습니다. 또한 연구진은 LLaRP LLM에서 영감을 받은 정책이 트랜스포머 모델과 달리 아타리 고유의 영역 내에서 숙련도를 크게 향상시킨다는 사실을 입증했습니다.
이 연구는 대규모 언어 모델에서 파생된 정보를 강화 학습 프로세스에 통합하는 것의 이점을 보여줍니다. LLM은 PPO 기반 RL과 연속 학습 시나리오 모두에서 표준 방법보다 높은 효율성을 입증했습니다. 또한 LLaRP는 널리 사용되는 모방 학습 접근 방식과 달리 학습을 위한 감독 입력이 덜 필요한 것으로 밝혀졌습니다.
언어 재배열 과제의 도입은 구현된 AI의 일반화에 대한 이해를 넓히기 위한 노력에서 고무적인 발전을 나타냅니다. 150,000개 이상의 고유한 언어 지시어로 구성된 이 과제는 자동 보상 구조와 함께 제공되어 해당 분야 내에서 지속적인 연구를 위한 강력한 기반을 제공합니다.
요약하면, 이 획기적인 연구는 대규모 언어 모델(LLM)을 통합하는 것이 구현된 인공 지능 시스템의 기능을 향상시키는 데 얼마나 혁신적인 영향을 미칠 수 있는지를 보여줍니다. 인상적인 성공률로 탁월한 결과를 달성한 혁신적인 LLaRP 방법론을 통해 구현형 AI 분야를 발전시킬 수 있는 새로운 방향을 제시했습니다. 또한, 여기에 소개된 접근 방식은 향상된 운영 효율성을 보여줌으로써 임베디드 AI 기술의 지속적인 발전과 진화에 대한 강력한 비전을 제시합니다.
보이지 않는 언어 재배열 지침에서 LLaRP의 비디오 예제는 https://llm-rl.github.io 에서 확인할 수 있습니다. 논문 에 구현된 작업을 위한 일반화 가능한 정책으로서의 대규모 언어 모델 arXiv .