OpenAI 기반의 그림 01은 채팅하고, 보고, 계획하고, 작업을 수행할 수 있는 로봇입니다.
요약
Figure는 OpenAI와 협력하여 완전한 대화를 수행하고 행동 전략을 고안하고 실행할 수 있는 로봇을 개발했습니다.
로봇이 시각 및 언어 정보를 모두 인식하고 이해할 수 있도록 하는 과정에는 그래픽 표현과 서면 담화를 해석하는 데 능숙하게 교육받은 OpenAI가 개발한 다면적인 계산 프레임워크와의 연결이 포함됩니다.
‘그림 01’이라는 모델과의 연결을 통해 그림의 로봇은 주변 환경에 대한 설명을 제공하고, 일반적인 시나리오를 이해하고, 매우 불확실하고 상황에 따라 달라지는 명령에 따라 활동을 수행할 수 있는 능력을 갖추게 되었습니다.
동영상에서 시연된 기술은 원격으로 제어된 것이 아니라 학습 과정을 통해 습득되었으며, 일반적인 속도로 수행되었습니다.
Figure의 로봇 및 인공지능 전문가인 코리 린치는 “불과 얼마 전까지만 해도 습득한 지식을 바탕으로 자율적으로 작업을 수행할 수 있는 휴머노이드 로봇과 의미 있는 대화를 나누는 것은 먼 꿈에 불과하다고 생각했을 것"이라며 최근 이 분야의 발전에 대한 열정을 표명했습니다. 기술 발전의 빠른 속도는 그의 예상을 뛰어넘었습니다.
비슷한 맥락에서 구글은 로봇이 언어적 및 시각적 신호에 따라 지시된 복잡한 작업을 수행하면서 일상적인 주변 환경을 탐색할 수 있는 실시간(RT) 모델을 통해 로봇공학의 숙련도를 보여주었습니다. 그러나 이러한 시연에서는 로봇 자체의 광범위한 언어적 의사소통이 이루어지지 않았습니다.
듣고, 계획하고, 생각하고, 추론하고, 행동하는 로봇
린치는 로봇의 기능 에 대해 자세히 설명합니다. 여기에는 시각적 경험에 대한 설명, 향후 행동 계획, 기억에 대한 반성, 행동으로 이어지는 결론을 구두로 설명하는 것이 포함됩니다.
이러한 목표를 달성하기 위해 OpenAI의 다중 모드 모델은 이전의 시각적 표현을 포함하는 포괄적인 대화 기록을 전체적으로 분석하여 개인이 상호 작용할 수 있는 명료한 답변을 생성합니다. 또한, 동일한 모델이 지정된 명령어에 따라 실행되어야 하는 특정 오토마톤 동작을 결정합니다.
로봇은 과거 대화 문맥을 분석하여 의도한 대상과 행동을 파악함으로써 “그 물건들을 지정된 위치에 놓아줄 수 있나요?“와 같은 구체적인 요청을 이해할 수 있습니다. 서른이 훨씬 넘어서야 선반에 식기를 보관하는 개념을 완전히 이해했던 제 능력을 뛰어넘는 수준입니다.
추천
로봇의 작동은 시각 정보를 중간 처리 단계 없이 모터 명령으로 변환하는 시각 모터 트랜스포머에 의해 제어됩니다. 이 장치는 이미지 수신을 위한 프레임 속도가 10헤르츠이며, 손목 위치 및 손가락 각도를 포함하여 각 손에 24개의 자유도를 가진 움직임을 200헤르츠의 놀라운 속도로 생성합니다.