Boston Dynamics, GPT-4와 Spot을 통합하고 새로운 기능 발견
요약
유명한 로봇 공학 회사인 Boston Dynamics는 자사의 혁신적인 로봇 탐지견인 Spot에 OpenAI의 최첨단 GPT-4 기술을 성공적으로 통합하여 이 통합의 놀라운 잠재력을 강조했습니다.
보스턴 다이내믹스의 스팟은 더욱 효과적으로 소통할 수 있는 추가 기능으로 개선되었습니다. 이 회사는 로봇 개의 목과 머리 역할을 하는 카메라가 장착된 팔과 함께 블루투스 스피커와 마이크를 로봇 개의 디자인에 통합했습니다. 또한 스팟의 민첩한 발은 입을 벌리고 닫는 동작을 통해 말을 시뮬레이션하도록 프로그래밍되어 초보적인 형태의 비언어적 의사소통을 할 수 있게 되었습니다.
향상된 버전의 Spot은 언어 및 이미지 처리를 위해 OpenAI의 최신 GPT-4 모델을 사용하며, 인간 간의 자연스러운 상호 작용을 촉진하기 위해 OpenAI에서 개발한 VQA 데이터 세트와 Whisper 음성 인식 기술을 활용합니다.
실제로 “헤이, 스팟!“이라는 혁신적인 명령을 내리면 보스턴 다이내믹스 본사에 상주하는 로봇 개 스팟이 문의에 응답할 뿐만 아니라 뛰어난 투어 가이드 역할을 효과적으로 수행할 수 있습니다. 또한, 이 첨단 오토마톤은 옆에 서 있는 사람을 식별하고 주의를 집중하는 탁월한 능력을 갖추고 있어 개인화된 상호작용을 통해 대화 능력을 더욱 향상시킵니다.
ChatGPT가 탑재된 스팟은 새로운 능력을 보여줍니다
Boston Dynamics의 실험적 실험을 통해 로봇에 의도적으로 부여되거나 프로그래밍에 알고리즘으로 인코딩되지 않았음에도 불구하고 새로운 능력이 자발적으로 나타나는 것을 발견했습니다.
보스턴 다이내믹스의 창시자에 대한 문의에 대해 스팟은 문제의 개인에 대해 무지하다고 고백했지만, 정보 기술(IT) 헬프데스크를 통해 도움을 요청할 수 있습니다. 이 지원 요청은 스팟에 전달된 지침에 명시적으로 명시되어 있지 않았다는 점을 언급할 필요가 있습니다.
스팟은 자신의 혈통에 관한 질문을 받았을 때 실험실 환경에서 자신의 선배로 간주되는 ‘스팟 V1’과 ‘빅독’을 자신의 개발 유산에 대한 선구적인 공헌에 경의를 표하는 의미로 인정하기로 결정했습니다.
또한 보스턴 다이내믹스는 ChatGPT 로봇이 미리 정해진 페르소나를 준수하고 상호작용 내내 재치 있는 해설이나 냉소적인 발언을 일관되게 전달하는 데 탁월하다는 점을 강조합니다.
보스턴 다이내믹스는 Microsoft의 로봇용 ChatGPT 규칙 을 기반으로 구현했습니다. 프롬프트에 대한 자세한 설명은 회사 블로그 에서 확인할 수 있습니다.
추천
요가 로봇을 생각하는 스팟
보스턴 다이나믹스는 ChatGPT로 학습한 언어 모델 기반 스팟의 특정 한계를 인정하고 있습니다. 예를 들어, AI 어시스턴트는 때때로 물류 로봇인 ‘스트레치’를 요가 용도로 언급하는 등 잘못된 정보를 제공하기도 합니다. 또한, 질문을 하고 응답을 받기까지 약 6초의 지연이 발생하여 대화 경험이 제한됩니다.
제공된 예는 언어 모델이 인간과 동등한 수준의 의식이나 지능을 가지고 있다는 것을 의미하는 것이 아니라 특정 단어와 구문 간의 통계적 상관관계의 강도를 보여주기 위한 것임을 유의해야 합니다. LLM은 지능적인 것처럼 보이기 위해 다양한 전략을 사용할 수 있지만, 그 속임수는 매우 설득력이 있을 수 있습니다.
보스턴 다이내믹스
보스턴 다이내믹스는 아직 스팟의 업그레이드된 반복에 대한 구체적인 청사진을 밝히지 않았습니다. 그러나 이 회사는 로봇 개체를 도슨트 서비스, 고객 지원, 개별화된 동반자 관계와 같은 잠재적인 애플리케이션을 포괄하는 유형 환경 내에서 언어 모델을 통합할 수 있는 매력적인 수단으로 인식하고 있습니다.
자연어 처리 기능과 고급 머신 러닝 알고리즘을 통합함으로써 로봇은 언어적 의사소통만으로 새로운 기술을 효율적으로 습득할 수 있어 필요한 훈련 시간을 크게 단축하고 다양한 작업에 원활하게 적응할 수 있습니다.
보스턴 다이내믹스와 스팟의 노력은 대규모 언어 모델의 방대한 언어 능력과 실제 환경 내에서 로봇이 실재하는 것 사이의 시너지 효과를 보여주는 사례로, 구글이 RT-2 및 SayCan 이니셔티브를 통해 적극적으로 추구하고 있는 목표입니다. 로봇은 이러한 거대한 언어 모델에 의해 축적된 광범위한 인지 능력을 활용하여 손쉽게 영역을 탐색하고 복잡한 조작을 마음대로 실행할 수 있으므로 추가 코딩이 필요하지 않습니다.