Contents

제너레이티브 AI가 로봇을 더 스마트하고, 더 능력 있고, 주류에 대비하게 만드는 방법

/images/how-generative-ai-is-making-robots-smarter-more-capable-and-more-ready-for-the-mainstream.png

엔터프라이즈 부문의 데이터 임원을 위해 특별히 고안된 엘리트 모임인 ‘AI Unleashed’에 오신 것을 환영합니다. 이 특별한 기회를 통해 같은 생각을 가진 전문가들과 연결하고 아이디어를 교환하여 지식을 공유하고 확장할 수 있는 협업 환경을 조성할 수 있습니다. 웹사이트를 방문하여 끊임없이 진화하는 데이터 관리 분야의 리더로서 귀사의 요구에 맞춘 이 특별한 이벤트에 대해 자세히 알아보세요.

최근 로봇 공학 분야에서 주목할 만한 발전이 있었으며, 이는 주로 생성 인공 지능 영역에서 상당한 진전이 있었기 때문이라고 할 수 있습니다.

선도적인 기술 기업과 연구 기관은 생성형 인공지능 시스템을 활용하여 지금까지 중공업과 실험실 환경을 넘어 널리 구현되는 데 방해가 되었던 로봇 공학 영역 내의 몇 가지 강력한 장애물을 해결하고 있습니다.

제너레이티브 인공 지능은 설계 최적화 및 자동화 향상과 같은 선구적인 애플리케이션을 통해 로봇 공학 분야의 상당한 발전을 촉진했습니다. 머신러닝 알고리즘을 사용하여 센서 및 기타 로봇을 비롯한 다양한 소스의 방대한 데이터를 분석함으로써 제너레이티브 AI는 로봇 시스템의 성능과 적응성을 개선하는 데 기여하는 보다 효율적인 의사 결정 프로세스를 가능하게 합니다. 또한 복잡한 문제에 대한 지능적인 솔루션을 제공함으로써 기존 기술과의 원활한 통합을 가능하게 하여 학제 간 협업을 촉진하고 로봇 연구 영역의 혁신을 촉진합니다.

실제 운영 환경에서 로봇 머신러닝 모델을 훈련하는 데는 수많은 장애물이 존재합니다. 이 과정은 매우 점진적인 속도로 진행되며, 실제 생활에서 일어나는 일의 진행 속도와 비슷합니다. 또한 실제로 설치할 수 있는 자동화 장치의 수량이 한정되어 있기 때문에 비용이 많이 드는 작업입니다. 또한 심각한 안전 문제와 다양한 환경에 대한 출입 제한으로 인해 철저한 교육이 제한되어 프로세스가 더욱 복잡해집니다.

연구자들은 실제 훈련에서 발생하는 문제를 극복하기 위해 시뮬레이션 환경을 로봇 모델 훈련의 수단으로 활용하고 있습니다. 이 방법은 실제 현장 훈련과 비교할 때 확장성, 비용 절감 등 여러 가지 장점이 있습니다. 그럼에도 불구하고 이 대안에는 고려해야 할 몇 가지 한계가 있습니다.

실제 환경의 매우 정확한 시뮬레이션을 제작하는 것은 많은 비용이 소요될 수 있으며, 안타깝게도 이러한 시뮬레이션은 현실에 존재하는 풍부한 디테일과 복잡성을 포착하지 못하는 경우가 많습니다. 그 결과 시뮬레이션의 충실도와 실제 경험 사이에 인식되는 차이가 존재하며, 이를 “시뮬레이션과 실제의 격차"라고 부르게 되었습니다. 이러한 차이로 인해 시뮬레이션 환경에서 훈련된 모델은 실제 시나리오에 적용할 때 예측할 수 없는 수많은 요소와 미묘한 변화에 대처하기 어렵기 때문에 최적의 성능을 발휘하지 못할 수 있습니다.

최근 제너레이티브 모델링 기법의 발전은 가상 환경 내에서 실제 시나리오를 정확하게 복제하는 능력을 향상시킴으로써 시뮬레이션 기반 애플리케이션 개발에 크게 기여했습니다. 이 프로세스는 합성 시뮬레이션과 실제 현실 간의 원활한 전환을 촉진하여 시뮬레이션 경험을 더욱 실감나고 정교하게 구현하는 데 중요한 역할을 했습니다.

역으로, 신경 방사 필드(NeRF)는 2차원 장면에서 3차원 오브젝트를 생성할 수 있는 제너레이티브 모델 역할을 합니다. NeRF를 활용하면 개발자가 로봇 훈련 목적으로 시뮬레이션된 주변 환경을 생성하는 프로세스를 더욱 간소화할 수 있습니다.

엔비디아는 신경 재구성 엔진 에 NeRF와 같은 제너레이티브 모델을 활용하고 있습니다. 이 AI 시스템은 자동차에 설치된 카메라로 녹화된 비디오에서 사실적인 3D 환경을 생성하여 자율 주행 차량용 모델을 훈련하는 데 사용할 수 있습니다.

다양한 기관 출신 학자들의 전문 지식을 활용하는 싱크드리머는 단일한 2차원 이미지를 기초로 하여 하나의 사물에 대한 다양한 관점을 생성하는 획기적인 모델입니다. 이후 생성된 시점은 추가 생성 모델에 입력되어 시뮬레이션 설정에 적합한 3차원 표현을 구성하는 데 사용됩니다.

딥마인드의 UniSim 모델은 언어 모델(LLM)과 확산 모델을 모두 사용하여 매우 사실적인 비디오 시퀀스를 생성하며, 로봇 시스템 훈련에 활용될 수 있는 복잡한 시뮬레이션을 생성할 수 있습니다.

로봇과 인간의 격차 해소

로봇 분야에서 해결해야 할 주요 과제 중 하나는 인간과 기계 간의 상호 작용 수준을 향상시키는 것입니다. 여기에는 인간의 지시를 이해하는 로봇의 능력을 향상시키고 인간과의 효율적인 협업을 촉진하는 것이 포함됩니다.

고급 멀티모달 생성 모델을 활용하면 이 문제에 대한 해결책을 찾을 수 있습니다. 이러한 모델은 시각 이미지, 동영상 등 다양한 형태의 데이터와 함께 자연어를 통합하여 향상된 커뮤니케이션을 통해 인간과 로봇 간의 상호 작용 능력을 향상시킵니다.

대표적인 예로 Google의 구현 언어 모델인 PaLM-E 이 있습니다. 이 모델은 이미지와 텍스트 간의 상관관계를 이해하도록 공동 학습된 언어 모델과 비전 트랜스포머를 결합한 것입니다.

이 모델은 습득한 전문 지식을 활용하여 시각적 맥락을 면밀히 분석하고 인간의 언어 지시를 해당 로봇 동작으로 번역할 수 있습니다. PaLM-E와 같은 모델은 복잡한 작업을 수행하는 로봇의 숙련도를 크게 향상시켰습니다.

이 개념을 더욱 발전시켜 지난 여름 시즌에 Google은 방대한 인터넷 콘텐츠 저장소를 기반으로 개발된 통합 시각-언어-행동 모델인 RT-2를 공개했습니다. 이 첨단 시스템은 인간의 의사소통과 매우 유사한 방식으로 구두 명령을 실행할 수 있으며, 훈련 과정에서 명시적으로 학습되지 않은 동작도 수행할 수 있습니다.

로봇과 데이터 세트 간의 격차 해소

로봇 연구 분야는 실제 로봇에서 파생된 풍부한 데이터를 자랑하며, 실제 경험을 통해 획득한 다양한 모델과 데이터 세트를 포괄합니다. 하지만 이러한 풍부한 정보는 다양한 조건에서 작동하고 각기 다른 기능을 수행하는 수많은 로봇에서 수집된 다양한 데이터 모음으로 구성되어 있기 때문에 다양성이라는 특징이 있습니다.

최근 연구의 발전으로 특정 그룹은 이러한 데이터 모음에 존재하는 정보를 통합하여 결과적으로 보다 적응력이 뛰어나고 다각적인 모델을 개발하기 위해 노력하는 것을 볼 수 있습니다.

예를 들어, 딥마인드가 33개의 추가 연구 기관과 협력하는 학제 간 노력인 RT-X가 있습니다. 이 획기적인 이니셔티브는 다양한 기능에 걸쳐 다양한 로봇 플랫폼과 협력할 수 있는 다목적 인공 지능 시스템을 개발하는 것을 목표로 합니다.

이 프로젝트의 영감은 대규모 언어 모델에 대한 획기적인 연구에서 비롯되었으며, 방대한 양의 데이터로 이러한 모델을 훈련하면 불가능하다고 여겨졌던 업적을 달성할 수 있음을 보여주었습니다. 이 목표를 달성하기 위해 여러 국가에 걸쳐 22개의 서로 다른 로봇 인스턴스와 10개의 서로 다른 기관에서 데이터 세트를 수집했습니다.이러한 다양한 소스를 하나의 포괄적인 집합으로 통합하여 500개의 개별 역량과 15만 개의 개별 과제를 통합했습니다. 이렇게 광범위한 토대를 마련한 다음에는 이 통합 코퍼스를 활용하여 다양한 모델을 학습시켰습니다. 특히 최종 결과, 이러한 모델은 특별히 지시하지 않았을 때에도 교차 구현 및 교차 작업 전달에 뛰어난 능력을 보였습니다.

더 나은 보상 모델 만들기

제너레이티브 모델은 로봇 장치의 지시를 용이하게 하는 프로그래밍 코드를 생성하는 기능을 포함하여 소프트웨어 개발 영역에서 상당한 유용성을 지니고 있습니다. 이와 관련하여 NVIDIA의 혁신적인 솔루션인 유레카는 생성 원리에 기반한 인공 지능을 사용하여 보상 모델을 생성하는데, 이는 일반적으로 로봇 훈련 과정에서 로봇의 안내와 관련된 강화 학습 알고리즘의 복잡한 측면입니다.

유레카는 보상 모델을 위한 코드를 작성하는 수단으로 GPT-4를 사용하므로 작업별 단서나 미리 결정된 보상 청사진이 필요하지 않습니다. 유레카는 시뮬레이션 환경과 GPU를 활용하여 광범위한 후보 보상 배치를 신속하게 평가함으로써 결과적으로 훈련 절차를 가속화합니다. 또한 유레카는 GPT-4를 활용하여 생성된 코드를 면밀히 검토하고 개선합니다. 또한 사람의 입력을 통해 보상 모델을 조정하고 개발자의 목표에 더 가깝게 맞출 수 있습니다.

처음에는 시각적 및 언어적 콘텐츠 제작과 같은 소박한 목표를 가지고 고안된 제너레이티브 모델은 이후 초기 설계 사양을 뛰어넘는 더 복잡한 작업을 포괄하도록 기능을 확장했습니다. 생성 인공 지능이 로봇 시스템에 점점 더 많이 통합됨에 따라 로봇이 일상에서 인간과 함께 실제로 배치되는 날이 머지않아 올 것으로 예상됩니다.