FeatUp: 컴퓨터 비전 작업의 성능 향상을 위해 딥 뉴럴 네트워크의 해상도를 업그레이드하는 머신 러닝 알고리즘
딥 피처는 컴퓨터 비전 영역에서 중요한 역할을 담당하며, 이미지 의미론 발견의 핵심 동인으로 작용하고 연구자들이 제한된 데이터로 인해 발생하는 문제를 비롯한 다양한 문제를 효과적으로 해결할 수 있게 해줍니다. 최근에는 시각적 이미지, 서면 텍스트, 청각 신호 등 다양한 데이터 소스에서 파생된 심층적인 특징을 활용하기 위한 혁신이 급증하고 있습니다. 이러한 기능은 수많은 애플리케이션의 기반이 될 뿐만 아니라 정밀한 분류부터 약한 가이드 학습, 식별 가능한 세분화, 최첨단 이미지 합성에 이르기까지 광범위한 분야의 발전을 촉진합니다. 딥 피처의 지속적인 개발은 컴퓨터 비전 영역에서 가능성의 윤곽을 계속해서 재구성하고 있습니다.
딥 피처는 다양한 컴퓨터 비전 애플리케이션에서 다용도로 활용되지만, 세분화 및 깊이 예측과 같은 고해상도 예측 작업에 필요한 고밀도 예측 작업을 수행할 때 그 효율성이 저해되는 경우가 많습니다. 이러한 제약은 최신 모델이 이미지의 광범위한 영역에 걸쳐 정보를 광범위하게 집계하는 경향이 있다는 사실에서 비롯됩니다. 이 점을 설명하기 위해 224 x 224 픽셀 입력을 7 x 7 그리드의 심도 있는 피처로 압축하는 ResNet-50의 경우를 예로 들어보겠습니다. 마찬가지로 획기적인 비전 트랜스포머(ViT)도 비슷한 한계에 직면하여 해상도가 크게 감소합니다. 결과적으로 제한된 해상도는 이러한 특징을 복잡한
초기 변형은 고충실도 신호를 사용하여 단독 포워드 패스 동안 특징 추출을 안내하는 반면, 대체 반복은 단일 이미지를 기반으로 암시적 모델을 구축하여 다양한 해상도에 걸쳐 특징을 재구성합니다. 특히 이렇게 재구성된 특징은 의미론적 무결성을 유지하며 수많은 애플리케이션에 손쉽게 통합할 수 있어 광범위한 재교육 절차 없이도 해상도와 전반적인 성능을 향상시킬 수 있습니다. 놀랍게도, FeatUp은 우수한 결과를 보여줍니다
FeatUp의 개발에는 NeRF(신경 방사 필드)와의 유사성을 활용하는 멀티뷰 일관성 손실이 사용되었습니다. FeatUp을 개발하는 동안 다음과 같은 측면이 고려되었습니다:
저해상도 피처 뷰를 생성하여 하나의 고해상도 출력으로 정제했습니다. 이를 위해 입력 이미지를 작은 패드와 수평 플립으로 교란시켰습니다. 변환된 각 이미지에 모델을 적용하여 이러한 뷰에서 저해상도 특징 맵 모음을 추출했습니다. 이 모델은 업샘플러를 훈련하기 위한 하위 특징 정보를 제공합니다.우리는 일관된 고해상도 피처 맵을 구축하고 다운샘플링 시 저해상도 지터링 피처를 재현할 수 있다고 가정했습니다. FeatUp의 다운샘플링은 고해상도를 저해상도 피처로 변환하는 레이 마칭과 직접적으로 유사합니다. 업샘플러는 이미지넷 훈련 세트에서 2,000단계에 걸쳐 훈련되고, 메트릭은 검증 세트에서 2,000개의 무작위 이미지에 대해 계산됩니다. 또한 사전 훈련된 고정된 ViT-S/16이 피처로 사용되어 최대 풀링 후 선형 분류기를 적용하여 클래스 활성화 맵(CAM)을 추출합니다. 
가우스 확률 손실을 통해 다운샘플링된 특징과 실제 모델 결과물을 비교하면 효과적인 고해상도 특징 맵은 여러 관점에서 관찰된 특징을 정확하게 재현해야 한다는 것을 알 수 있습니다. 메모리 사용량을 최소화하고 FeatUp의 암시적 네트워크의 학습 과정을 가속화하기 위해 공간적으로 분산된 특징들을 상위 k=128 주성분으로 압축합니다. 이 과정에서 상위 128개 구성 요소가 단일 이미지의 특징에 존재하는 분산의 거의 96%를 차지하므로 상당한 양의 관련 정보를 보존할 수 있습니다. 이러한 최적화를 구현함으로써 학습 시간이 기존 방법보다 최소 60배 이상 단축되는 동시에 ResNet-50과 같은 아키텍처의 특징 무결성을 유지할 수 있습니다. 또한 이 접근 방식은 더 큰
요약하면, FeatUp은 멀티뷰 일관성을 통해 딥 피처의 공간 해상도를 향상시키는 혁신적인 솔루션입니다. 이 프레임워크를 사용하면 원하는 규모에 따라 고품질의 특징 표현을 생성할 수 있습니다. 컴퓨터 비전에서 널리 퍼져 있는 문제, 즉 딥 모델이 매우 정확한 피처 맵을 생성할 수 있지만 공간 해상도가 매우 낮다는 문제를 이 방법을 통해 해결했습니다. FeatUp의 두 가지 변형은 선형 프로빙 전이 학습, 모델 해석 가능성, 엔드투엔드 시맨틱 세분화 등 다양한 작업에서 수많은 벤치마크 방법과 비교해 우수한 성능을 입증했습니다.
논문 및 MIT 블로그 을 확인하세요. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들께는 여러분의 관심을 불러일으킬 만한 최신 노력과 제품에 대한 정보를 제공하는 훌륭한 플랫폼인 뉴스레터 구독을 진심으로 권해드립니다.
머신러닝 분야에서 39,000명 이상의 회원을 보유한 Reddit의 방대한 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
구글, NVIDIA, 메타, 스탠포드 대학교, 매사추세츠 공과대학, 마이크로소프트 등 인공지능 분야의 권위 있는 기관의 저명한 연구자들이 구독하는 빠르게 확장 중인 뉴스레터를 구독하세요.