Contents

GPT-4 Vision이 도로와 만나는 지점: 자율주행을 개선할 수 있을까요?

요약

중국 연구진이 비전 기능의 통합을 통한 자율 주행 개선이라는 독특한 응용 분야에서 OpenAI의 최신 언어 모델인 GPT-4를 활용하고 있습니다. 이 최첨단 기술의 한계와 잠재력을 테스트함으로써 이 연구자들은 인공 지능의 새로운 영역을 탐구하고 머신 러닝 알고리즘으로 가능한 것의 한계를 넓히고 있습니다.

NVIDIA와 같은 업계 리더의 노력이 탄력을 받으면 Open AI의 GPT-4 비전(GPT-4V)과 유사한 비전 언어 모델이 산업 목적, 로봇 공학 및 자율 주행 시스템을 위한 컴퓨터 비전 영역에서 기본 구성 요소로 부상할 것으로 예상됩니다. 최근 상하이 인공지능 연구소, 기가AI, 동방사범대학교, 홍콩중문대학교, WeRide.ai의 연구원들은 자율 주행 환경의 맥락에서 GPT-4V와 관련된 조사를 실시했습니다.

GPT-4V는 강력한 시각 인식 능력을 갖춘 언어 모델 GPT-4의 향상된 버전으로, 이미지를 인식할 뿐만 아니라 그 내용을 해석하고 관련 컨텍스트를 제공할 수 있습니다. 연구원들은 기본적인 장면 식별부터 다양한 시나리오에 걸친 복잡한 인과적 추론 및 의사 결정 프로세스에 이르는 포괄적인 일련의 테스트를 통해 GPT-4V의 성능을 평가했습니다.

GPT-4 비전, 일부 애플리케이션에서 기존 시스템보다 뛰어난 성능

연구 결과에 따르면 GPT-4V는 장면을 이해하고 비정상적인 사례를 처리하는 데 있어 현재의 자동화 시스템보다 눈에 띄게 우수한 결과를 나타냈습니다. 또한 이 혁신적인 기술은 비정형적인 상황에 적응하고 목표를 인식하며 실제 도로 환경에서 정확한 정보에 입각한 판단을 내릴 수 있습니다.

실제로 이 모델은 자율 주행 차량에 가장 중요한 측면, 특히 공간 인식과 관련하여 특정 한계를 보여줍니다. 예를 들어, 테스트 결과 GPT-4V는 방향을 구분하는 데 있어 최적의 성능을 발휘하지 못했으며 모든 교통 신호를 식별하지 못하는 것으로 나타났습니다.

GPT-4 Vision이 도로에서 올바른 결정을 내릴 수 있을까요?

실제로 우리가 제안한 모델의 다재다능함은 자율주행 기술의 여러 측면에 걸친 숙련도를 통해 입증되었습니다.구체적인 예를 들자면, 시각적 인식 영역에서 GPT-4V는 대기 조건과 같은 환경 요소를 인식하고 다양한 형태의 조명을 구분하며 다양한 카메라 구성으로 캡처한 이미지에 존재하는 다양한 도로 표지판을 정확하게 해독하는 놀라운 능력을 보여주었습니다. 또한, 이 혁신적인 솔루션은 이러한 시각 데이터 세트 내에서 다른 차량 참가자의 공간 좌표와 동적 동작을 효과적으로 추론합니다.

GPT-4V는 고속도로에서 예정에 없던 터치다운을 실행하는 비행기나 복잡한 건물 현장의 이미지를 해석하여 까다로운 시나리오를 처리하는 데 능숙함을 보여주었습니다. 또한 광각 및 연속적인 영상을 이해하고 검사하는 데 탁월한 능력을 발휘했습니다. 도로 이미지를 내비게이션 도구의 데이터와 통합하는 이 모델의 기능은 활용도를 더욱 높였습니다.

/images/where-gpt-4-vision-meets-the-road-can-it-improve-autonomous-driving.png

이미지: ADG@PJLab 기사 공유하기

종합적인 평가를 위해 연구원들은 GPT-4V에 속도 제한, 도로 상황 등 다양한 요소를 고려하면서 복잡한 교통 시나리오를 탐색하는 자율주행 운전사 역할을 하는 시나리오를 제시했습니다. 차량의 속도 및 기타 필수 세부 정보와 관련된 관련 데이터와 함께 각 프레임의 비디오 영상을 처리함으로써 AI는 정보에 입각한 판단을 내리고 필요한 기동을 실행하는 동시에 선택에 대한 정당성을 제공할 것으로 예상되었습니다. 결함이 없는 것은 아니었지만 GPT-4V는 이 과제를 성공적으로 완수했습니다.

GPT-4 비전은 유망하지만 위험한 약점을 보임

그룹은 GPT-4V와 같은 혁신적인 프레임워크가 장면 이해, 의도 인식 및 의사 결정과 관련하여 현재의 자율 주행 플랫폼을 능가할 수 있는 상당한 역량을 가지고 있다고 인식하고 있습니다. 그럼에도 불구하고 공간 인식의 제약과 교통 신호 인식에 대한 잘못된 해석으로 인해 현재로서는 GPT-4V를 독립적으로 이러한 맥락에서 효과적으로 적용할 수 없습니다.

권고

GPT-4V와 같은 첨단 비전 모델의 신뢰성과 범용성을 향상시키기 위해서는 다양한 주행 상황과 조건에서 추가 조사가 수행되어야 합니다.

추가 정보 및 모든 데이터는 GitHub 에서 확인할 수 있습니다.