딥마인드의 GenEM은 LLM을 사용하여 로봇의 표현적인 동작을 생성합니다.
모바일 로봇이 사람과 효과적으로 상호작용하려면 로봇이 자신의 의도와 목적을 나타내는 표현적인 행동을 보여줘야 합니다. 예를 들어, 다른 사람의 존재를 인정하는 것은 고개를 끄덕이는 것과 같은 미묘한 머리 움직임을 통해 이루어질 수 있으며, 아이디어를 거부하는 것은 고개를 단호하게 흔드는 것을 포함할 수 있습니다. 또한 “실례합니다"와 같은 간단한 언어적 표현으로 다른 사람에게 공간을 요청할 수도 있습니다. 이러한 형태의 의사소통은 인간에게 제2의 본능이 되었지만, 현재의 로봇 시스템은 다양한 상황에서 유사한 행동을 보이는 데 필요한 유연성과 다양성이 부족합니다. 따라서 이는 로봇 공학 분야에서 더 많은 탐구와 혁신이 필요한 중대한 도전 과제입니다.
새로운 연구 에서 토론토 대학교 , 구글 딥마인드 및 호쿠 연구소 의 연구원들은 대규모 언어 모델(LLM)에서 제공되는 방대한 사회적 맥락을 사용하여 로봇의 표현적인 행동을 만드는 솔루션을 제안합니다. GenEM이라고 불리는 이 기술은 다양한 프롬프트 방법을 사용하여 환경의 맥락을 이해하고 로봇의 기능을 사용하여 표현적인 행동을 모방합니다.
GenEM은 기존 접근 방식에 비해 높은 수준의 적응성을 보여 사람의 입력과 다양한 로봇 시스템을 모두 수용할 수 있습니다.
표현적 행동
로봇에서 표현적 행동을 생성하는 기존의 방법론은 전문가가 규칙 또는 템플릿 기반 프레임워크를 활용하여 이러한 시스템 내에서 로봇 반응의 상관 관계와 함께 구조화된 기준 세트를 설정하는 것입니다. 그러나 이러한 접근 방식과 관련된 중요한 과제 중 하나는 로봇 유형과 운영 상황에 따라 상당한 양의 수작업이 필요하다는 점입니다. 또한, 그 결과 시스템은 유연하지 못한 동작을 보이므로 익숙하지 않은 시나리오, 새로운 감각 방식 또는 변동하는 개인 선호도를 수용하기 위해 광범위한 프로그래밍 수정이 필요합니다.
최근에는 유연성과 적응력이 뛰어난 표현 행동을 생성하기 위해 데이터 기반 방법론을 활용하는 데 더 많은 관심이 집중되고 있습니다. 이러한 기술에는 로봇 자체에서 얻은 정보를 기반으로 상호 작용 규칙을 도출하기 위해 고전적인 머신러닝 알고리즘을 사용하거나 유사한 목적을 달성하기 위해 생성 모델에 의존하는 방법이 포함됩니다. 데이터 기반 접근 방식은 기존의 규칙 기반 시스템에 비해 특정 이점을 제공하지만, 그 자체의 한계가 없다는 점에 유의해야 합니다.예를 들어, 특정 유형의 로봇에 맞는 매우 구체적인 데이터 세트와 특정 동작이 적절하게 사용될 수 있는 상황이 필요한 경우가 많습니다.
이 혁신적인 접근 방식은 대규모 언어 모델(LLM)에 내재된 내재적 지혜를 활용하여 포괄적인 명령어 세트나 반복적인 모델 훈련 없이도 미묘하고 적절한 동작을 생성합니다. 예를 들어, LLM은 인사하는 동안 눈을 마주치거나 고개를 끄덕여 상대방의 존재나 지시를 증명하는 등의 인사이트를 제공함으로써 광범위한 규칙 수립이나 계산 학습 프로세스의 필요성을 제거할 수 있습니다.
대규모 언어 모델이 제공하는 풍부한 사회적 정보를 활용하여 다양한 상황에 맞게 조정할 수 있는 유연하고 모듈화된 표현 행동을 만드는 것이 연구팀의 목표입니다.
생성적 표현 동작(GenEM)
credit: generative-expressive-motion.github.io
일련의 LLM 에이전트를 활용하여 로봇이 자연어 명령을 통해 자율적으로 표현적인 동작을 생성할 수 있는 DeepMind의 GenEM 접근 방식을 활용합니다. 에이전트는 사회적 맥락을 처리하고 원하는 표현 동작을 로봇이 실행할 수 있도록 API 호출로 변환하는 역할을 담당합니다.
GenEM은 음성, 신체 동작, 조명 줄무늬와 같은 시각적 신호 등 다양한 양식을 활용하여 사용 가능한 리소스를 능숙하게 조작함으로써 로봇의 목표를 전달하는 다양한 표정을 생성합니다. 또한 이 접근 방식의 가장 큰 장점 중 하나는 실시간 사람의 입력에 따라 동적으로 조정할 수 있어 이전에 설정된 패턴의 구성을 통해 새로운 커뮤니케이션 동작을 지속적으로 개선하고 생성할 수 있다는 점입니다.
GenEM 프레임워크의 시작은 기존 언어를 사용하여 공식화된 명령에 의해 트리거됩니다. 이 입력은 ‘고개 끄덕이기’와 같은 제스처를 포함한 다양한 인간 표현을 포함할 수도 있고, ‘지나가는 행인이 인사하기’와 같이 사회적 관습을 준수해야 하는 사회 문화적 환경을 설명할 수도 있습니다.
프로세스의 초기 단계에서 대규모 언어 모델(LLM)은 연쇄 사고 추론을 사용하여 유사한 상황에서 사람이 어떻게 반응할지 설명합니다. 그 후, 추가 LLM 에이전트가 인간의 제스처 표현을 로봇의 기능과 일치하는 일련의 순차적인 작업으로 변환합니다.예를 들어, 에이전트는 로봇이 헤드 팬 및 틸트 기능을 활용하여 승인을 전달하도록 지시하거나 얼굴 디스플레이 패널에서 미리 정해진 조명 디자인을 활성화하여 미소를 시뮬레이션할 수 있습니다.
궁극적으로 별도의 에이전트가 장치의 명령 세트를 활용하여 감성 로봇의 움직임에 대한 세부 계획을 실행 가능한 프로그래밍 언어로 변환하는 작업을 담당합니다. 또한, 대안으로 GenEM은 사람의 입력을 통합하고 대규모 언어 모델의 기능을 활용하여 생성된 표현 행위를 적절히 수정할 수 있습니다.
앞서 언급한 절차에는 LLM에 대한 지시가 수반되지 않으며, 대신 오토마톤의 기능 및 API 특수성에 맞게 미세 조정하기만 하면 되는 신속한 엔지니어링 전략에 의존합니다.
GenEM 테스트
조사자들은 모바일 로봇 시스템이 사용자 입력을 통합하거나 통합하지 않고 두 가지 다른 GenEM 반복을 사용하여 생성한 행동 패턴을 캐릭터 애니메이션의 숙련된 전문가가 고안한 일련의 행동 프로토콜과 비교했습니다.
이 연구에서는 문맥 이해를 돕고 GenEM 시스템을 통해 표현적인 동작을 생성하기 위해 OpenAI의 고급 언어 모델인 GPT-4를 활용했습니다. 수많은 참가자를 대상으로 종합적인 사용자 설문조사를 실시한 결과, 응답자의 대다수가 GenEM이 생성한 동작이 숙련된 애니메이터가 세심하게 만든 동작과 동등하게 이해하기 쉽다고 인식하는 것으로 나타났습니다. 또한 연구진은 GenEM이 사용하는 세분화되고 다각적인 방법론이 교육 내용을 로봇의 행동으로 변환하는 데 있어 단독 LLM에만 의존하는 것보다 더 뛰어난 성능을 발휘한다는 사실을 발견했습니다.
또한 GenEM의 주요 장점 중 하나는 각 개별 장치에 대한 특수한 훈련 데이터 세트를 만들 필요 없이 다양한 유형의 로봇에 보편적으로 적용할 수 있다는 점입니다. 또한 대규모 언어 모델의 논리적 추론 능력을 활용할 수 있는 GenEM은 제한된 수의 기본 로봇 명령어를 활용하여 복잡하고 미묘한 동작을 생성할 수 있습니다.
상황 내 학습 과정을 통해 제한된 수의 프롬프트만을 활용함으로써 로봇의 표현력이 뛰어난 동작을 놀라운 효율로 생성할 수 있습니다. 꼼꼼하게 조합된 데이터 세트나 복잡한 규칙 세트에 의존했던 이전의 접근 방식과 달리, 유니티의 프레임워크는 이러한 광범위한 준비가 필요하지 않으므로 맞춤형 로봇 동작을 생성하는 과정을 크게 간소화할 수 있습니다.
GenEM은 아직 배아 단계에 머물러 있지만, 잠재적인 기능을 밝히기 위한 추가 연구가 절실히 필요합니다. 현재로서는 로봇과 사람 간의 단일 상호작용과 같은 좁은 매개변수와 제한된 작업 공간 내에서만 그 효과가 입증되었습니다. 향후에는 더 복잡한 동작 공간으로 적용 범위를 확장하고 더 다양한 동작을 수행할 수 있는 로봇을 통합함으로써 GenEM의 적용 범위를 넓힐 수 있습니다. 고무적인 점은 대규모 언어 모델이 이러한 한계를 해결하고 GenEM의 새로운 활용 가능성을 열어줄 수 있다는 점입니다.
연구팀은 논문에서 자신들의 방법론이 광범위한 언어 모델의 힘을 활용하여 다양하고 통합 가능한 관절 모션을 생성하기 위한 민첩한 패러다임을 구성한다고 주장합니다.