그리폰 v2: 텍스트 및 시각적 단서를 통해 유연한 객체 참조를 제공하도록 설계된 통합 고해상도 인공 지능 모델
최근 대형 시각 언어 모델(LVLM)의 발전은 텍스트 이해와 시각적 이해가 모두 필요한 작업에서 주목할 만한 성과를 거두었습니다. 특히 REC(참조 표현 이해력)와 같은 영역별 과제와 관련하여 이미지와 텍스트 이해 및 추론을 통합하는 기술이 개발된 이후 이 영역에서 상당한 진전이 있었습니다. 이러한 기능을 구현하는 모델의 예로는 물체 인식과 같은 영역에서 탁월한 성능을 보여준 그리폰(Griffon)이 있으며, 이는 LVLM의 지각 처리 능력이 크게 도약했음을 나타냅니다. 이러한 발전의 의미는 매우 광범위하며, 사용자 인터페이스 디자인을 향상시키기 위해 기존의 텍스트 컨텍스트를 넘어 유연한 참조를 적용할 수 있는 가능성에 대한 추가 연구를 고무하고 있습니다.
고해상도 객체 인식의 상당한 발전에도 불구하고 LVLM과 같은 대규모 언어 모델은 복잡한 상황에서는 여전히 작업에 특화된 시스템을 능가하는 데 어려움을 겪고 있습니다. 가장 큰 한계는 GUI 에이전트나 개수 추정과 같은 작업에 텍스트와 시각 정보를 모두 효과적으로 활용하는 데 방해가 되는 이미지 해상도 제약에 있습니다.
그리폰 v2는 새로 개발된 고해상도 모델로 텍스트와 시각적 단서를 통해 유연한 객체 참조를 제공합니다. 이를 달성하기 위한 핵심 과제는 낮은 이미지 해상도 문제를 해결하는 것입니다. 이를 완화하기 위해 간단하면서도 효과적인 다운샘플링 프로젝터를 도입하여 입력 토큰 제한으로 인해 대규모 언어 모델에 부과된 제약을 뛰어넘는 것을 목표로 하고 있습니다.
멀티모달 지각 능력의 향상은 특히 저해상도 모델에서 간과할 수 있는 미세한 요소의 미묘한 디테일과 전체적인 맥락을 모두 보존함으로써 달성됩니다. 우리 팀은 모듈식 시각적 토큰화 기능을 활용하여 이러한 기반을 구축하고 시각적 언어 공동 참조 기능을 통합하여 그리폰 v2의 기능을 확장했습니다. 그 결과 사용자는 좌표계, 비정형 텍스트, 적응형 이미지 참조 등 다양한 입력 형식을 손쉽게 활용할 수 있게 되었습니다.
그리폰 v2는 경험적 증거를 바탕으로 참조 표현 생성(REG), 구문 접지, 참조 표현 이해(REC) 등 여러 영역에서 그 효과를 입증했습니다. 특히 물체 감지 및 물체 수 세기 작업에서 인간 전문가보다 뛰어난 성능을 보였습니다.
연구팀은 주요 성과에 대한 간략한 개요를 다음과 같이 발표했습니다:
고해상도 멀티모달 인식 모델은 이미지를 분리할 필요성을 제거하여 로컬 이해를 향상시킴으로써 멀티모달 인식에 대한 혁신적인 접근 방식을 제시합니다. 이 모델의 미세한 디테일을 감지하는 기능은 1K의 높은 해상도까지 처리할 수 있게 되면서 크게 업그레이드되었습니다. 또한 언어와 시각적 입력을 통합하는 시각-언어 공동 참조 구조를 도입하여 다양한 형태의 사용자-모델 상호 작용이 가능합니다. 엄격한 테스트를 통해 문구 접두사, REG 및 REC를 비롯한 다양한 로컬라이제이션 작업에서 이 모델의 효율성이 확인되었습니다. 이러한 영역에서 수치적 성능뿐만 아니라 전반적인 품질 측면에서도 전문가 모델을 능가하는 최첨단 결과를 달성했습니다.
논문 및 Github을 확인하세요. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 Gr up .
저희의 노력에 감사하는 분들께는 뉴스레터 구독을 통해 최신 노력과 업데이트에 대한 정보를 얻을 수 있는 좋은 기회이므로 진심으로 초대합니다.
38k\\+ ML 서브 레딧에 가입하는 것을 잊지 마세요
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 및 기타 여러 유명 기관의 주요 전문가들이 구독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독해 보세요.