Contents

연구원들이 AI의 단어 예측 기술을 사용하여 로봇에게 샌프란시스코를 걷는 법을 가르치고 있습니다.

요약

저명한 캘리포니아 버클리 대학교에서 수행된 혁신적인 연구에서 언어 모델에서 파생된 언어 예측 원칙을 활용하여 로봇 탐색을 위한 고급 방법론을 도입했습니다. 이 획기적인 기술은 최소한의 지시 입력만으로 복잡한 환경을 효율적으로 탐색할 수 있는 지능형 기계의 새로운 시대를 예고할 수 있습니다.

“다음 토큰 예측으로서의 휴머노이드 이동"이라는 제목의 연구에서 저자들은 로봇 이동의 복잡한 과정을 언어 생성에서 다음 단어를 예측하는 것과 유사한 순차적 예측 문제로 접근합니다.

대규모 언어 모델을 발전시키는 데 중요한 이정표를 세운 트랜스포머 기술의 혁신적인 적용은 이제 ‘로봇 걸음걸이 예측’이라는 프로세스를 통해 로봇의 움직임을 예측하는 데 활용되고 있습니다.

로봇의 움직임에 대한 예측을 생성하는 과정은 서면 또는 음성 텍스트 내의 개별 단위에 해당하는 ‘토큰’을 활용하여 언어 구성을 구성하는 것에 비유할 수 있습니다. 트랜스포머 모델로 알려진 이 방법을 통해 오토마톤이 이전에 실행한 누적된 궤적을 기반으로 다음 동작을 예측할 수 있습니다. 결과적으로 기계는 이전에 수행한 동작만을 기반으로 연속적인 동작 예측을 생성합니다.

이 연구는 모델을 학습시키기 위해 사람의 움직임 정보 및 YouTube의 비디오 영상 등 다양한 데이터 소스를 활용했습니다. 특히 이 로봇은 이전에 주변 환경에 대한 예시적인 사례(즉, ‘제로 샷’)에 노출되지 않은 상태에서 샌프란시스코의 거리를 횡단하는 능력을 보여주었습니다. 단 27시간의 보행 데이터만을 훈련의 기초로 삼아 이 놀라운 업적을 달성한 것입니다.

모델의 수명 기간 동안 보이지 않는 명령 실행 능력이 원래의 훈련 이상으로 확장되어 일반적인 훈련 리소스의 미미한 부분만 사용하여 복잡한 자연 환경 내에서 백업과 같은 작업을 원활하게 수행할 수 있습니다.

예측을 통해 다양한 멀티모달 훈련 데이터 최적화

비디오 영상, 센서 측정, 컴퓨터 생성 시뮬레이션 등 다양한 데이터 유형을 처리한 후 이러한 입력을 Transformer 아키텍처와 통합할 수 있는 일관된 형식으로 제시하는 기능에서 연구진의 접근 방식의 다양성을 확인할 수 있습니다.

불완전한 데이터 문제를 해결하기 위해 연구팀은 누락된 정보를 예측할 수 있는 학습 가능한 마스크 토큰을 활용하는 방법을 구현했습니다. 이 접근 방식은 인체의 위치 데이터를 사용하여 휴머노이드 로봇에 움직임을 전송하는 YouTube 동영상에 적용하여 시연되었습니다.

/images/researchers-teach-a-robot-to-walk-around-san-francisco-using-ais-word-prediction-techniques.png

연구팀은 로봇을 훈련시키기 위해 인공적으로 생성된 신경망 패턴, 모션 추적을 통해 포착된 사람의 움직임, 인터넷 기반 비디오 영상에서 얻은 재현된 동작을 포함한 광범위한 정보를 사용했습니다.

감각 또는 운동 데이터의 결함을 포함하는 불완전한 움직임 패턴을 가지고 있음에도 불구하고 모델은 접근 가능한 세부 사항을 예측하고 학습 가능한 마스크 토큰을 사용하여 사용할 수 없는 데이터를 보완함으로써 효율적으로 지식을 습득할 수 있다는 것이 팀의 근본적인 이해입니다.

추천

연구진은 이번 연구 결과가 첨단 자율 로봇 시스템 개발에 미칠 영향에 대해 낙관적으로 전망하고 있습니다. 연구진은 어려운 상황에서도 신뢰할 수 있는 예측을 할 수 있는 모델의 능력은 정교한 추론과 직관적인 문제 해결 능력이 향상되고 있음을 시사한다고 말합니다. 이는 감각 입력에 기반한 실시간 의사 결정 대신 사전 프로그래밍된 응답을 사용하는 로봇의 움직임에 대한 기존의 접근 방식에서 크게 벗어난 것입니다. 로봇이 예상치 못한 상황에 효과적으로 적응하고 대응할 수 있는 가능성은 로봇 공학 분야에 새로운 가능성을 열어주며, 다양한 애플리케이션에서 안전성과 효율성을 향상시킬 수 있습니다.