실제 로봇 상호 작용을 위한 데이터 수집 속도를 높여주는 Google DeepMind의 RoboVQA
요약
구글의 딥마인드 사업부는 RoboVQA(로봇을 위한 시각적 질의응답 시스템)라는 혁신적인 정보 수집 방법을 도입했습니다. 이 기술을 사용하면 실제 현장 경험에서 파생된 방대한 양의 데이터를 빠르게 축적할 수 있습니다. 궁극적인 목표는 로봇이 복잡한 과제를 보다 효율적으로 수행할 수 있도록 숙련도를 높이는 것입니다.
RoboVQA는 데이터 수집을 위해 “크라우드 소싱” 방법론을 사용하며, 다양한 작업에서 로봇 조작기를 사용하는 인간 참가자, 자율 시스템 및 운영자의 기여를 통해 다양한 데이터 세트를 얻습니다.
인간과 기계로부터 학습하는 RoboVQA
실험은 “커피 한 잔 끓여줘” 또는 “이 작업 공간을 정리해줘"와 같은 복잡한 집안일 지침을 제공하는 것으로 시작되었습니다. 그 후 로봇, 인간, 기계 부속 장치를 장착한 개인이 세 개의 개별 사무실에서 이러한 임무를 수행했습니다.
기사 공유하기
이미지: 구글 딥마인드
연구팀은 크라우드 소싱 작업 세분화 프로세스를 통해 비디오 영상을 활용하여 “커피 원두 잡기”, “커피 머신 작동” 등 다양한 활동에 대한 간결하고 접근하기 쉬운 언어적 묘사를 생성했습니다. 그 결과 포괄적인 지침이 포함된 829,000개 이상의 클립이 제작되었습니다. 딥마인드의 의견에 따르면 이 접근 방식은 크라우드소싱을 통합하지 않는 다른 전략과 비교할 때 데이터를 신속하게 수집할 수 있는 수단을 제공합니다.
다른 로봇 모델보다 뛰어난 성능의 RoboVQA-VideoCoCa
연구진은 획득한 정보가 가치가 있음을 입증했습니다. 연구팀은 RoboVQA-VideoCoCa 모델을 미세 조정하여 다양한 복잡한 상황에서 상당한 성공을 거두었으며, 다른 시각-언어 모델(VLM)을 중심으로 한 대체 전략을 인상적인 차이로 능가하는 성과를 거두었습니다. 이러한 대안과 비교했을 때, 기계는 인간의 감독을 필요로 하는 경우가 약 46% 더 적었습니다. 연구진은 상당한 진전을 이룬 것은 인정하지만 아직 축적해야 할 방대한 양의 데이터가 남아 있다고 주장합니다.
비디오: 구글 딥마인드
추가 실험에서 연구팀은 단일 이미지 분석 VLM을 사용하는 대신 비디오 버전의 잠재 모델(VLM)을 활용함으로써 모델의 성능을 약 20% 향상시킬 수 있음을 입증했습니다.
또한 인공지능 전문가 그룹은 자동화를 통해 로봇을 위한 시뮬레이션 훈련 데이터를 생성하는 혁신적인 접근 방식인 RoboGen을 도입했습니다.
권장
모든 정보 및 데이터는 GitHub 에서 확인할 수 있습니다.