Contents

이미지넷 정확도 87%, 지연 시간 3.8ms: 온디바이스 모바일 비전을 재정의하는 Google의 MobileNetV4

Contents

디바이스에서 직접 실행되는 효율적인 신경망 작업은 보안되지 않은 공용 네트워크를 통한 전송을 피함으로써 민감한 정보에 대한 신속하고 즉각적인 상호 작용과 개인정보 보호를 가능하게 합니다. 그러나 모바일 디바이스의 제한된 처리 능력은 정확성과 리소스 활용도를 모두 유지하면서 최적의 성능을 달성하는 데 큰 걸림돌이 됩니다.

이 문제를 해결하기 위해 Google 연구원들이 작성한 “MobileNetV4 - 모바일 생태계를 위한 범용 모델"에서는 가장 최신 버전의 모바일넷인 MobileNetV4(MNv4)를 소개합니다. 이 혁신적인 모델은 이미지넷-1K 데이터 세트에서 87%의 정확도를 보여주며 놀라운 결과를 달성했습니다. 또한 효율성 측면에서도 뛰어난 성능을 발휘하여 높은 수준의 효율성을 유지하면서 Pixel 8 EdgeTPU에서 실행하는 데 3.8밀리초밖에 걸리지 않습니다.

/images/87-imagenet-accuracy-3-8ms-latency-googles-mobilenetv4-redefines-on-device-mobile-vision.png

이 성과의 혁신적인 기반은 최적화된 신경 아키텍처 검색(NAS) 프레임워크 내에서 조화롭게 통합되어 보편적으로 효과적인 모바일 모델 코호트를 생성하는 UIB(Universal Inverted Bottleneck)와 모바일 MQA로 구성됩니다.

/images/87-imagenet-accuracy-3-8ms-latency-googles-mobilenetv4-redefines-on-device-mobile-vision-1.png

UIB 모듈은 관리 가능한 검색 복잡성을 유지하면서 여러 최적화 목표에 부합하는 충분한 유연성을 보여줌으로써 효과적인 네트워크 구성을 위한 탄탄한 기반이 되어줍니다. 분리 가능한 깊이 방향 컨볼루션(DW) 및 포인트 방향(PW) 확장 및 투영 역병목 설계와 같은 검증된 MobileNet 빌딩 블록을 활용함으로써 UIB는 신경 아키텍처 탐색(NAS) 내에서 다목적 역병목(IB) 배열을 촉진하여 맞춤형 확장 기준의 필요성을 제거합니다. 또한 이 전략은 슈퍼넷 중심의 네트워크 아키텍처 탐색 방법론과 통합하면 다양한 인스턴스 간에 광범위한 매개변수 공유(95% 이상)가 가능하므로 매우 유용한 NAS 프로세스를 구현할 수 있습니다.

모바일 MQA와 UIB의 통합은 특히 가속기를 위한 선구적인 접근 방식을 제시하여 추론 성능이 39% 향상되는 놀라운 결과를 가져왔습니다. 또한 모델 검색 프로세스의 전반적인 효율성을 향상시키는 개선된 신경 구조 검색(NAS) 절차를 구현했습니다. 이러한 발전된 기술을 기존 UIB 기술과 결합하여 모바일 CPU, DSP, GPU, 심지어 Apple Neural Engine 및 Google Pixel EdgeTPU와 같은 특수 가속기와 같은 다양한 플랫폼에서 탁월한 성능을 발휘하는 새로운 MNv4 모델 세트를 개발했습니다.

/images/87-imagenet-accuracy-3-8ms-latency-googles-mobilenetv4-redefines-on-device-mobile-vision-2.png

경험적 평가 결과, 픽셀 8 엣지TPU에서 3.8밀리초의 낮은 지연 시간을 유지하면서 이미지넷-1K에서 87%의 인상적인 정확도를 달성한 MNv4는 주목할 만한 발전을 보여주었습니다. 이 성과는 모바일 컴퓨터 비전 성능이 크게 도약했음을 의미합니다. 또한 연구진은 획기적인 성과와 확립된 방법론이 이 분야에서 추가적인 혁신을 촉진할 것으로 기대하고 있습니다.

MobileNetV4 - 모바일 생태계를 위한 범용 모델 논문은 arXiv 에 있습니다.