딥마인드, 컨버넷이 대규모 비전 트랜스포머에 대응할 수 있음을 입증하다
컴퓨터 비전 분야에서 컨볼루션 신경망(ConvNet)은 역사적으로 수많은 벤치마크에서 탁월한 성능을 입증해 왔습니다. 하지만 최근에는 비전 트랜스포머(ViT)로 알려진 대체 패러다임이 등장하여 ConvNets의 우위를 점진적으로 대체하고 있습니다. 많은 전문가들은 ConvNet이 중소규모 데이터 세트에 대해 우월성을 보인다고 주장하지만, 방대한 웹 스케일 데이터 세트에 대해서는 ViT가 더 효과적이라고 주장합니다.
구글 딥마인드 연구팀이 최근 수행한 ‘규모에 맞는 비전 트랜스포머와 컨볼루션 신경망’이라는 제목의 연구에서는 비전 트랜스포머가 컨볼루션 신경망(ConvNet)보다 확장성이 우수하다는 일반적인 통념에 도전장을 내밀었습니다. 연구팀은 방대한 데이터 세트에서 학습된 NFNet 모델이라는 기존 ConvNet 아키텍처에 대한 광범위한 조사를 통해 확장성 측면에서 ConvNet이 비전 트랜스포머와 경쟁할 수 있다는 사실을 입증했습니다.
연구팀은 기념비적인 JFT-4B 말뭉치를 기반으로 깊이와 폭을 아우르는 다양한 신경망 아키텍처를 교육하기 위한 탐험에 착수했습니다. 3만 개 카테고리에 걸쳐 약 40억 개의 레이블이 지정된 시각적 예시로 구성된 이 데이터베이스는 딥러닝 모델 학습을 위한 강력한 기반 역할을 합니다. 연구진은 50번의 조정 주기를 거쳐 기존 신경망을 개선함으로써 ImageNet 상위 1%의 실수율이 지속적으로 향상되는 것을 관찰했으며, 이는 초기 준비 단계에서 배포된 컴퓨팅 리소스와 긍정적인 관계를 보여주었습니다. 특히 F7\\+로 명명된 가장 확장된 모델은 비슷한 컴퓨팅 예산을 준수하면서 사전 학습된 비전 트랜스포머에 대해 문서화된 성능 수준과 일치하는 성능을 보여주었습니다. 실제로
연구원들은 검증 손실과 훈련 전 계산 간의 상관관계를 밝히기 위해 훈련이 끝날 때 전자를 후자와 비교하여 그래프를 그렸습니다. 그 결과, 훈련 전 계산과 관련하여 유효성 검사 손실을 조절하는 로그 스케일링 법칙과 일치하는 뚜렷한 선형 패턴이 나타났습니다. 계산 리소스가 증가함에 따라 최적의 모델 크기와 훈련 에포크 할당량 모두 그에 따라 확장되었습니다. 또한, 모델 크기와 훈련 반복 횟수를 비례적으로 조정하는 컨볼루션 신경망(CNN) 크기 조정에 대한 실용적인 가이드라인이 공개되었습니다.
흥미롭게도, 우리의 연구는 NFNet 제품군 내의 세 가지 모델(F0, F3 및 F7\\+)에 대한 이상적인 학습 속도를 조사하는 것으로 확장되었습니다. 연구 결과, 각 모델은 제한된 에포크 예산 하에서 유사한 최적 학습률(약 α ≈ 1.6)을 나타냈습니다. 그럼에도 불구하고 에포크 예산이 증가함에 따라 학습률도 증가했지만, 모델 크기에 따라 그 속도는 다양했습니다. 규모가 큰 모델일수록 에포크 예산이 증가함에 따라 최적 학습률이 더 가파르게 감소했습니다.
요약하면, 이 연구는 컴퓨터 비전 영역의 필수 전제, 즉 적절하게 구성된 모델 성능의 주요 결정 요인은 계산 리소스와 훈련에 사용할 수 있는 데이터의 양이라는 사실을 뒷받침합니다. 이 조사는 컨볼루션 신경망(ConvNet), 특히 NFNet 아키텍처가 한때 지배적이라고 여겨졌던 영역에서 비전 트랜스포머와 경쟁할 수 있는 잠재력을 가지고 있음을 입증합니다. 이러한 연구 결과는 컴퓨팅 및 데이터 리소스를 동시에 보강하는 것의 중요성을 강조하며, 진화하는 컴퓨터 비전 연구 환경에 대한 새로운 통찰력을 제공합니다.
arXiv 의 ConvNets Match Vision Transformers at Scale 논문 .