Contents

다양한 행동에 대한 빠른 추적: 확산 정책 대비 5배의 속도 향상을 달성한 VQ-BeT

Contents

생성 모델을 통해 라벨링된 데이터 세트에서 복잡한 행동을 생성하는 것은 의사 결정의 영역에서 복잡한 작업으로 입증되었습니다. 이러한 작업에는 행동을 다중 모드 분포를 가진 연속값 벡터로 표현하는 작업이 포함되며, 이러한 벡터는 종종 검증되지 않은 소스에서 파생됩니다. 이렇게 생성된 행동의 오류 가능성은 순차적 예측을 고려할 때 더욱 두드러집니다.

이 문제를 해결하기 위해 서울대학교, 뉴욕대학교, 서울대학교 인공지능연구소의 연구진은 최근 “잠재 행동을 이용한 행동 생성"이라는 제목의 논문에서 벡터-정량화된 행동 트랜스포머(VQ-BeT)라는 혁신적인 접근 방식을 개발했습니다. VQ-BeT 모델은 확산 정책에 비해 계산 시간을 크게 단축하면서 다양한 행동 패턴을 포착하는 기능을 통해 다중 모드 행동 예측, 조건부 생성, 부분 관찰과 같은 문제를 효과적으로 해결합니다.

/images/fast-tracks-to-diverse-behaviors-vq-bet-achieves-5x-speed-surge-compared-to-diffusion-policies.png /images/fast-tracks-to-diverse-behaviors-vq-bet-achieves-5x-speed-surge-compared-to-diffusion-policies-1.png

행동 이산화 단계와 VQ-BeT 훈련 단계로 구성됩니다. 초기 단계에서는 복잡한 실제 동작 공간을 정량화하는 효율적인 방법을 확립하기 위해 잔여 벡터 양자화 가변 자동 인코더(Residual VQ-VAE)를 사용합니다. 그 후 GPT에서 영감을 얻은 트랜스포머 구조를 훈련하여 관찰 데이터를 기반으로 동작 또는 순차적 동작의 확률을 추정합니다.

/images/fast-tracks-to-diverse-behaviors-vq-bet-achieves-5x-speed-surge-compared-to-diffusion-policies-2.png

연구진은 8개의 다양한 환경에서 일련의 실험을 통해 이러한 환경의 다양한 측면을 조명하는 여러 가지 통찰력 있는 관찰을 발견할 수 있었습니다.

VQ-BeT는 무조건 및 조건부 행동 생성 과제에서 모두 최첨단 결과를 달성하여 다양한 환경에서 BC, BeT 및 확산 정책을 포함한 다른 방법보다 뛰어난 성능을 보였습니다. 특히, 조건부 생성을 위한 입력으로 목표가 주어졌을 때 VQ-BeT는 대부분의 경우 GCBC, C-BeT, BESO보다 우수한 성능으로 선두를 달리고 있습니다. 또한 VQ-BeT는 nuScenes와 같은 자율 주행 영역에서 인상적인 성능을 보여줬으며, 종종 전문 SOTA 기법에 필적하거나 이를 능가하기도 합니다. 효율적인 원패스 모델인 VQ-BeT는 계산 속도 측면에서 상당한 이점을 제공하며, 멀티패스 모델에 비해 시뮬레이션에서는 5배, 실제 로봇에서는 25배 더 빠르게 추론을 완료하여

본질적으로 VQ-BeT는 다양한 조작, 이동 및 자율 탐색 작업에서 탁월한 성능을 보여줍니다.이러한 모델을 확장하여 더 많은 양의 정보, 다양한 환경 및 다양한 행동을 포함하는 더 큰 데이터 세트를 포함할 수 있는 잠재력은 매우 유망합니다.

잠재 행동을 통한 행동 생성 논문은 arXiv 에 있습니다.