딥마인드, 임의의 크기와 해상도를 위한 새로운 비전 트랜스포머 제안
비전 트랜스포머(ViT)는 다양한 입력 시퀀스 길이를 처리하는 데 탁월한 범용성과 효율성을 보여주며 컴퓨터 비전 영역의 지배적인 강자로 부상했습니다. 인상적인 성능으로 이 분야에서 오랫동안 독주해 온 CNN의 강력한 도전자로 자리매김했습니다.
모든 종횡비와 해상도를 위한 비전 트랜스포머 NaViT"에서는 다양한 해상도와 종횡비의 입력 시퀀스를 처리할 수 있는 네이티브 해상도 ViT(NaViT)로 알려진 ViT 아키텍처의 고급 변형을 소개합니다. 이 혁신적인 개발로 컴퓨터 비전 분야에서 이 기술의 적용 범위가 확대되어 다양한 작업에 활용될 수 있습니다.
이 간행물의 저자들은 이 간행물에서 주요 발견을 간결하게 요약하여 다음과 같이 설명할 수 있습니다:
훈련 시 해상도를 무작위로 샘플링하면 훈련 비용이 크게 절감됩니다. NaViT는 광범위한 해상도에서 높은 성능을 제공하므로 추론 시 비용과 성능의 균형을 원활하게 맞출 수 있으며, 새로운 작업에도 적은 비용으로 적용할 수 있습니다. 예제 패킹으로 구현된 고정 배치 형태는 종횡비 보존 해상도 샘플링, 가변 토큰 드롭률, 적응형 계산과 같은 새로운 연구 아이디어로 이어집니다.
(1) 인스턴스가 서로에게 영향을 주지 않도록 마스크드 셀프 어텐션과 마스크드 풀링이 도입되었고, (2) 가변 종횡비를 지원하고 관찰되지 않는 해상도까지 확장하기 위해 인수분해 및 분수 위치 임베딩이 구현되었습니다.
또한 패치 앤 팩은 매우 효과적인 혁신적인 훈련 방법을 도입했습니다. 여기에는 더 빠른 훈련 및 추론 속도를 위해 이미지별로 토큰 드롭 속도를 조정할 수 있는 옵션과 함께 연속 토큰 드롭을 통합하는 기능이 포함됩니다. 또한 각 이미지의 원래 종횡비를 유지하면서 분포에서 이미지 크기를 임의로 선택하여 혼합 해상도 이미지를 처리할 수 있습니다. 이러한 접근 방식은 생산성을 높이고 더 큰 이미지에 더 많이 노출되어 기존 ViT 모델에 비해 상당한 개선 효과를 가져옵니다.
실험 조사에서는 기존 ViT 모델과 비교하여 NaViT의 사전 학습된 성능을 평가했습니다. 연구 결과 NaViT가 ViT보다 더 인상적인 성능을 보이는 동시에 훈련 효율성도 더 높다는 것이 입증되었습니다. 또한 추론 과정에서 다양한 입력 크기에 적응할 수 있기 때문에 큰 비용 부담 없이 다양한 작업에 경제적으로 활용할 수 있습니다.
논문 패치 앤 팩: NaViT, 모든 종횡비 및 해상도를 위한 비전 트랜스포머 arXiv .