Contents

딥마인드, 임의의 크기와 해상도를 위한 새로운 비전 트랜스포머 제안

Contents

비전 트랜스포머(ViT)는 다양한 입력 시퀀스 길이를 처리하는 데 탁월한 범용성과 효율성을 보여주며 컴퓨터 비전 영역의 지배적인 강자로 부상했습니다. 인상적인 성능으로 이 분야에서 오랫동안 독주해 온 CNN의 강력한 도전자로 자리매김했습니다.

모든 종횡비와 해상도를 위한 비전 트랜스포머 NaViT"에서는 다양한 해상도와 종횡비의 입력 시퀀스를 처리할 수 있는 네이티브 해상도 ViT(NaViT)로 알려진 ViT 아키텍처의 고급 변형을 소개합니다. 이 혁신적인 개발로 컴퓨터 비전 분야에서 이 기술의 적용 범위가 확대되어 다양한 작업에 활용될 수 있습니다.

/images/deepmind-proposes-novel-vision-transformer-for-arbitrary-size-resolution.png

이 간행물의 저자들은 이 간행물에서 주요 발견을 간결하게 요약하여 다음과 같이 설명할 수 있습니다:

훈련 시 해상도를 무작위로 샘플링하면 훈련 비용이 크게 절감됩니다. NaViT는 광범위한 해상도에서 높은 성능을 제공하므로 추론 시 비용과 성능의 균형을 원활하게 맞출 수 있으며, 새로운 작업에도 적은 비용으로 적용할 수 있습니다. 예제 패킹으로 구현된 고정 배치 형태는 종횡비 보존 해상도 샘플링, 가변 토큰 드롭률, 적응형 계산과 같은 새로운 연구 아이디어로 이어집니다. /images/deepmind-proposes-novel-vision-transformer-for-arbitrary-size-resolution-1.png

(1) 인스턴스가 서로에게 영향을 주지 않도록 마스크드 셀프 어텐션과 마스크드 풀링이 도입되었고, (2) 가변 종횡비를 지원하고 관찰되지 않는 해상도까지 확장하기 위해 인수분해 및 분수 위치 임베딩이 구현되었습니다.

또한 패치 앤 팩은 매우 효과적인 혁신적인 훈련 방법을 도입했습니다. 여기에는 더 빠른 훈련 및 추론 속도를 위해 이미지별로 토큰 드롭 속도를 조정할 수 있는 옵션과 함께 연속 토큰 드롭을 통합하는 기능이 포함됩니다. 또한 각 이미지의 원래 종횡비를 유지하면서 분포에서 이미지 크기를 임의로 선택하여 혼합 해상도 이미지를 처리할 수 있습니다. 이러한 접근 방식은 생산성을 높이고 더 큰 이미지에 더 많이 노출되어 기존 ViT 모델에 비해 상당한 개선 효과를 가져옵니다.

/images/deepmind-proposes-novel-vision-transformer-for-arbitrary-size-resolution-2.png

실험 조사에서는 기존 ViT 모델과 비교하여 NaViT의 사전 학습된 성능을 평가했습니다. 연구 결과 NaViT가 ViT보다 더 인상적인 성능을 보이는 동시에 훈련 효율성도 더 높다는 것이 입증되었습니다. 또한 추론 과정에서 다양한 입력 크기에 적응할 수 있기 때문에 큰 비용 부담 없이 다양한 작업에 경제적으로 활용할 수 있습니다.

논문 패치 앤 팩: NaViT, 모든 종횡비 및 해상도를 위한 비전 트랜스포머 arXiv .