딥마인드, 보상을 통해 언어 모델과 로봇을 연동하는 새로운 패러다임 제시
최근 인터넷의 방대한 데이터로 사전 학습된 대규모 언어 모델(LLM)이 개발되면서 이러한 모델은 문맥 학습을 통해 다양하고 새로운 능력을 습득할 수 있게 되었습니다. 여기에는 로봇의 행동을 제어할 수 있는 능력도 포함됩니다.
언어 모델 AI 시스템은 자연어 처리 및 이해 능력이 뛰어남에도 불구하고 이러한 특정 목적을 위한 충분한 학습 데이터가 부족하여 기본적인 로봇 작동을 지시하는 데 어려움을 겪는 경우가 많습니다.
구글 딥마인드 연구팀은 최근 발표한 ‘로봇 기술 합성을 위한 언어와 보상’이라는 제목의 논문에서 로봇 행동에 대한 언어와 보상 간의 연관성을 확립하는 혁신적인 방법론을 제시합니다. 이 획기적인 접근 방식은 보상 기능을 활용하여 높은 수준의 언어 명령과
본 연구는 개별적인 행동보다는 높은 수준의 결과와 명령을 연관시키는 것이 더 유리하다는 개념에서 출발했습니다. 보상은 풍부한 의미 정보를 가지고 있으며 일반적으로 분해가 가능하기 때문에 복잡한 행동, 목표, 한계를 효율적으로 표현할 수 있기 때문입니다.
앞서 언급한 개념을 구현하는 데 있어 가장 큰 장애물은 효과적인 보상을 개발하는 것인데, 이는 일반적으로 관련 분야의 전문 지식을 필요로 합니다. 이 장애물을 극복하기 위해 저자들은 언어 모델(LLM)을 활용하여 자동으로 보상을 생성하고 온라인 최적화 기법, 특히 로봇 애플리케이션을 위해 설계된 실시간 최적화 도구인 MuJoCo MPC를 사용할 것을 제안합니다. 이 접근 방식을 사용하면 상당한 훈련 데이터나 기술 전문 지식 없이도 로봇 동작을 생성할 수 있습니다.
보상 번역기 및 모션 컨트롤러. 보상 번역기는 사전 학습된 언어 모델 기반 모델로, 사용자의 의도를 이해하고 모든 보상 파라미터와 가중치를 조절합니다. 모션 컨트롤러는 수정된 보상에 따라 작동하며 로봇의 움직임을 대화식으로 미세 조정합니다.
네 발 로봇과 민첩한 로봇 팔. 보상을 인터페이스로 통합하지 않은 다른 방법과 비교했을 때, 우리 시스템은 신뢰성과 다용도성 모두에서 우수한 결과를 보였으며 다양한 작업을 더 효과적으로 수행했습니다.
로봇 기술 합성을 위한 보상 언어 논문 arXiv .