Contents

딥마인드, 보상을 통해 언어 모델과 로봇을 연동하는 새로운 패러다임 제시

Contents

최근 인터넷의 방대한 데이터로 사전 학습된 대규모 언어 모델(LLM)이 개발되면서 이러한 모델은 문맥 학습을 통해 다양하고 새로운 능력을 습득할 수 있게 되었습니다. 여기에는 로봇의 행동을 제어할 수 있는 능력도 포함됩니다.

언어 모델 AI 시스템은 자연어 처리 및 이해 능력이 뛰어남에도 불구하고 이러한 특정 목적을 위한 충분한 학습 데이터가 부족하여 기본적인 로봇 작동을 지시하는 데 어려움을 겪는 경우가 많습니다.

구글 딥마인드 연구팀은 최근 발표한 ‘로봇 기술 합성을 위한 언어와 보상’이라는 제목의 논문에서 로봇 행동에 대한 언어와 보상 간의 연관성을 확립하는 혁신적인 방법론을 제시합니다. 이 획기적인 접근 방식은 보상 기능을 활용하여 높은 수준의 언어 명령과

/images/deepminds-proposes-new-paradigm-for-interfacing-language-model-with-robots-through-rewards.png

본 연구는 개별적인 행동보다는 높은 수준의 결과와 명령을 연관시키는 것이 더 유리하다는 개념에서 출발했습니다. 보상은 풍부한 의미 정보를 가지고 있으며 일반적으로 분해가 가능하기 때문에 복잡한 행동, 목표, 한계를 효율적으로 표현할 수 있기 때문입니다.

/images/deepminds-proposes-new-paradigm-for-interfacing-language-model-with-robots-through-rewards-1.png

앞서 언급한 개념을 구현하는 데 있어 가장 큰 장애물은 효과적인 보상을 개발하는 것인데, 이는 일반적으로 관련 분야의 전문 지식을 필요로 합니다. 이 장애물을 극복하기 위해 저자들은 언어 모델(LLM)을 활용하여 자동으로 보상을 생성하고 온라인 최적화 기법, 특히 로봇 애플리케이션을 위해 설계된 실시간 최적화 도구인 MuJoCo MPC를 사용할 것을 제안합니다. 이 접근 방식을 사용하면 상당한 훈련 데이터나 기술 전문 지식 없이도 로봇 동작을 생성할 수 있습니다.

/images/deepminds-proposes-new-paradigm-for-interfacing-language-model-with-robots-through-rewards-2.png

보상 번역기 및 모션 컨트롤러. 보상 번역기는 사전 학습된 언어 모델 기반 모델로, 사용자의 의도를 이해하고 모든 보상 파라미터와 가중치를 조절합니다. 모션 컨트롤러는 수정된 보상에 따라 작동하며 로봇의 움직임을 대화식으로 미세 조정합니다.

/images/deepminds-proposes-new-paradigm-for-interfacing-language-model-with-robots-through-rewards-3.png /images/deepminds-proposes-new-paradigm-for-interfacing-language-model-with-robots-through-rewards-4.png /images/deepminds-proposes-new-paradigm-for-interfacing-language-model-with-robots-through-rewards-5.png

네 발 로봇과 민첩한 로봇 팔. 보상을 인터페이스로 통합하지 않은 다른 방법과 비교했을 때, 우리 시스템은 신뢰성과 다용도성 모두에서 우수한 결과를 보였으며 다양한 작업을 더 효과적으로 수행했습니다.

로봇 기술 합성을 위한 보상 언어 논문 arXiv .