북경대학교와 바이트댄스의 AI 백서, 속도와 효율성 측면에서 확산 모델을 능가하는 VAR을 소개합니다.
GPT 시리즈와 같은 매우 강력한 자동 회귀(AR) 대규모 언어 모델(LLM)의 출현은 인공 지능 분야에서 주목할 만한 획기적인 사건입니다. 이러한 모델은 환각과 같은 문제에 직면해 있지만 일반화된 인공 지능(AGI)을 달성하기 위한 상당한 단계로 간주됩니다. 이러한 모델의 효율성은 주어진 시퀀스 내에서 다음 토큰을 예측하는 자기 지도 학습 접근 방식에서 비롯됩니다. 연구는 이러한 모델의 확장성과 이전 가능성을 강조하여 제로 샷 및 소수 샷 학습을 통해 보이지 않는 다양한 작업에서 효과적으로 수행할 수 있도록 지원합니다. 이러한 특성은 AR 모델을 방대한 데이터 세트에서 지식을 습득하는 데 있어 유망한 경쟁자로 자리매김하며, AG
의 핵심 원칙을 전형적으로 보여줍니다. 컴퓨터 비전 영역에서도 마찬가지로 언어적 모델에서 관찰되는 확장 가능하고 이전 가능한 특성을 모방하는 데 있어 확장형 자동 회귀 또는 글로벌 모델의 타당성을 조사하는 데 몰두해 왔습니다. VQGAN 및 DALL-E]와 같은 주목할 만한 노력은 이미지 생성에 있어 AR 프레임워크의 잠재력을 입증했습니다. 이러한 모델은 시각적 토큰화 도구를 활용하여 연속적인 이미지를 개별 2D 요소로 분할한 후 1차원 선형 형식으로 평평하게 만들어 자동 회귀 프로세스를 용이하게 합니다. 그럼에도 불구하고 이러한 접근법의 확장성 측면은 여전히 미개척 분야로 남아 있으며, 그 실행은 확산 모델에 비해 상당히 미흡합니다.
기존 접근 방식 간의 격차를 해소하기 위해 북경대학교의 학자들은 시각적 자동 회귀(VAR) 모델링이라는 혁신적인 인공 지능 전략을 고안했습니다. 이 모델은 인간 인지의 계층적 구조와 다중 스케일 시스템의 설계 특징에서 영감을 받았습니다. VAR은 ‘다음 규모 예측’ 프레임워크를 사용하여 시각 정보를 거친 단위의 버전으로 시작하여 점차적으로 해상도를 향상시키는 멀티스케일 토큰 표현으로 인코딩합니다. 이 방법론은 GPT-2와 같은 트랜스포머 아키텍처를 활용함으로써 특히 까다로운 ImageNet 256x256 평가에서 자동 회귀 모델의 성능을 크게 향상시켰습니다.
벡터 자동 회귀(VAR) 모델의 경험적 검증을 통해 대규모 언어 모델(LLM)에서 볼 수 있는 것과 유사한 확장 현상을 발견하여 다양한 애플리케이션에서 발전과 다용도성에 대한 엄청난 가능성을 강조했습니다. 특히 이러한 모델은 이미지 완성, 생성, 조작과 같은 시각적 지향 작업에서 제로 샷 전이 학습을 수행할 수 있는 능력을 보여주었습니다.이러한 괄목할 만한 성과는 이미지와 관련된 VAR 모델의 효율성이 크게 향상되었음을 의미할 뿐만 아니라, 이미지 합성 영역에서 GPT에서 영감을 받은 자동 회귀 기법이 매우 효과적인 확산 모델을 능가한 최초의 사례이기도 합니다.
요약하면, 이 연구는 스케일링 법칙에 대한 경험적 관찰을 통해 검증되고 제로 샷 일반화 능력을 입증한 다중 스케일 자동 회귀 접근법을 기반으로 한 새로운 시각 생성 프레임워크를 제시합니다. 또한, 광범위한 오픈 소스 코드베이스의 가용성과 함께 시각적 자동 회귀 모델의 성능이 크게 향상되었습니다. 이러한 노력의 궁극적인 목표는 시각적 자동 회귀 학습의 개발을 가속화하고 언어 모델과 컴퓨터 비전 간의 격차를 해소하며 인공 지능 연구 및 실제 응용 분야의 혁신을 촉진하는 것입니다.
논문 및 코드 를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시면 더욱 관심을 불러일으킬 수 있는 최신 노력과 개발에 대한 정보를 얻을 수 있는 훌륭한 플랫폼이 되리라 확신하며 진심으로 초대합니다.
4만 명이 넘는 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
인공 지능 기술을 통합한 저희 플랫폼은 150만 명에 달하는 방대한 잠재 고객층을 자랑합니다. 크리테오와의 협업을 통해 이 광범위한 네트워크를 효과적으로 활용하고 도달 범위를 극대화할 수 있습니다.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 및 기타 수많은 저명한 기관의 저명한 전문가들이 구독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.