Contents

CMU 연구진이 슬롯 중심 모델(Slot-TTA)로 테스트 시간 적응을 제안합니다: 장면을 공동으로 분할하고 재구성하는 슬롯 중심 병목현상이 장착된 반지도형 모델

Contents

컴퓨터 비전의 가장 큰 난제 중 하나는 이미지 또는 3차원 포인트 클라우드 내에 존재하는 물체의 개별 인스턴스를 정확하게 구분하고 분류하는 인스턴스 세분화입니다. 이러한 기능은 자율 주행 차량과 의료 이미지 분석 등 다양한 영역에서 매우 중요합니다. 최상위 인스턴스 세분화 모델을 고안하는 데 상당한 진전이 있었지만, 익숙하지 않은 실제 상황과 학습 데이터와 다른 데이터 세트에 직면할 때 종종 장애물에 부딪힙니다. 따라서 배포 외(OOD) 시나리오를 효과적으로 처리할 수 있도록 세분화 모델을 조정하여 이 문제를 해결하기 위한 상당한 연구가 진행되었습니다. 널리 관심을 끌고 있는 새로운 접근 방식 중에는 슬롯-TTA (

컴퓨터 비전 분야에서 인스턴스 분할 모델은 시각적 미디어와 3차원 포인트 클라우드 내에서 특정 객체를 인식하고 묘사할 수 있는 기능을 제공하면서 주목할 만한 발전을 이루었습니다. 이러한 모델은 의료 이미지 검사부터 자율 주행 차량에 이르기까지 다양한 실용적인 애플리케이션의 기반이 됩니다. 그럼에도 불구하고 이러한 모델은 학습 데이터의 한계를 뛰어넘는 다양한 실제 상황과 데이터 세트에 적응해야 하는 공통적이고 어려운 과제에 직면해 있습니다. 서로 다른 영역을 원활하게 넘나들지 못한다는 점은 이러한 모델을 실제로 효과적으로 사용하는 데 큰 장벽이 됩니다.

카네기멜론대학교, 구글 딥마인드, 구글 리서치의 연구원들은 이 문제를 해결하기 위해 슬롯-TTA라는 혁신적인 방법을 도입했습니다. 특히 인스턴스 분할에 맞춤화된 Slot-TTA는 슬롯 기반 이미지 및 포인트 클라우드 렌더링 시스템의 장점과 최첨단 분할 기술을 결합한 것입니다. Slot-TTA 설계의 핵심은 인스턴스 세분화 모델이 테스트 중 분산되지 않은 상황에 효과적으로 대응하여 성능과 유연성을 향상시킬 수 있도록 하는 기능입니다.

Slot-TTA는 세분화 성능을 평가하는 주요 기준으로 조정된 랜드 인덱스(ARI)를 사용합니다. 철저한 훈련 및 평가 과정에서 다각도 RGB 이미지, 단안 RGB 이미지, 복잡한 3D 포인트 클라우드 데이터를 포함한 포괄적인 범위의 데이터 세트가 활용됩니다. Slot-TTA의 고유한 특성은 테스트 단계에서 재구성 피드백을 활용하여 적응할 수 있다는 점입니다. 이 획기적인 개념은 이전에는 볼 수 없었던 새로운 관점을 위해 세분화와 시각적 충실도를 반복적으로 개선하는 것을 수반합니다.

/images/cmu-researchers-propose-test-time-adaptation-with-slot-centric-models-slot-tta-a-semi-supervised-model-equipped-with-a-slot-centric-bottleneck-that-jointly-segments-and-reconstructs-scenes.png

Slot-TTA는 HDR(하이 다이내믹 레인지) 배경으로 렌더링된 51,000개 이상의 셰이프넷 오브젝트가 포함된 까다로운 멀티 셰이프넷하드(MSN) 데이터 세트에서 놀라운 성능을 발휘합니다. 데이터 세트의 다용도성을 평가하기 위해 각 장면을 훈련 및 테스트 목적으로 여러 뷰로 나눕니다. 서로 다른 세트의 오브젝트 인스턴스 간에 겹치지 않도록 세심한 주의를 기울여 데이터가 Slot-TTA의 신뢰성을 측정하는 데 적합하도록 합니다.

Mask2Former, Mask2Former-BYOL, Mask2Former-Recon, Semantic-NeRF와 같은 다양한 기존 방법과 비교했을 때 Slot-TTA는 통제된 환경과 통제되지 않은 환경 모두에서 우수성을 입증하여 기존 기술보다 주목할 만한 개선점을 제공합니다.

변형 토큰 주의(TTA)가 탑재된 Slot-TTA의 성능은 특히 배포 외(OOD) 환경에서 선도적인 2D 이미지 분할 모델로 간주되는 Mask2Former의 성능을 능가합니다. 이 결과는 다양한 실제 상황에 효과적으로 적응할 수 있는 Slot-TTA의 역량을 보여줍니다.

후속 시도에서 Bartler 등(2022)이 제안한 자기 감독 목표를 Mask2Former-BYOL의 프레임워크에 통합한 결과 눈에 띄는 개선이 나타나지 않았으며, 이는 전이 학습을 위한 모든 기술이 일률적으로 유리한 것은 아니라는 것을 나타냅니다.

Mask2Former와 같은 감독된 세그멘테이터와 비교했을 때, OSRT와 유사하게 크로스뷰 이미지 합성만을 위해 훈련되고 훈련 중 세그멘테이션 감독이 없는 Slot-TTA의 성능은 현저히 떨어지는 것으로 관찰되었습니다(Sajjadi 외., 2022a 제안). 이 결과는 TTA에서 최적의 결과를 얻기 위해 훈련 과정에 분할 감독을 통합하는 것이 중요하다는 것을 강조합니다.

슬롯-TTA는 관찰되지 않은 혁신적인 RGB 이미지 관점을 생성하고 분해하는 데 놀라운 숙련도를 보여줍니다. 연구자들은 이전에 사용한 것과 동일한 데이터 세트와 테스트 세트 파티션을 사용하여 지금까지 알려지지 않은 총 5개의 시각적 각도에 대한 Slot-TTA의 정밀한 재구성 충실도 및 분할 ARI 성능을 평가합니다. 이러한 평가에는 TTA 훈련 범위에 포함되지 않은 관점도 포함됩니다. 그 결과는 정말 인상적이었습니다.

/images/cmu-researchers-propose-test-time-adaptation-with-slot-centric-models-slot-tta-a-semi-supervised-model-equipped-with-a-slot-centric-bottleneck-that-jointly-segments-and-reconstructs-scenes-1.png

테스트 시간 적응을 통해 이전에 관찰되지 않았던 관점에 대한 슬롯-TTA의 성능이 눈에 띄게 향상되어 새로운 상황에서 세분화 및 시각적 충실도를 개선할 수 있는 능력을 보여줍니다.반대로, 위협적인 경쟁자인 Semantic-NeRF는 이러한 익숙하지 않은 유리한 지점에 직면했을 때 제한된 적응력을 보여 Slot-TTA의 다양성과 성장 잠재력을 강조합니다.

요약하면, Slot-TTA의 개발은 복잡한 실제 상황에 맞게 세분화 모델을 조정하는 문제를 효과적으로 해결함으로써 컴퓨터 비전 분야에서 상당한 진전을 이루었음을 의미합니다. 새로운 슬롯 중심 렌더링 전략, 최첨단 세분화 알고리즘, 동적 테스트 시간 조정을 통합한 Slot-TTA는 오브젝트 인스턴스 세분화의 정밀도와 유연성 모두에서 인상적인 향상을 보여주었습니다. 또한 이 획기적인 작업은 현재 세분화 모델의 단점을 발견하는 동시에 컴퓨터 비전 영역에서 새로운 발전의 가능성을 열어줍니다.

논문 , 깃허브 , 프로젝트 페이지 , CMU 논문 를 확인해보세요. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 최신 AI 연구 소식, 멋진 AI 프로젝트 등을 공유할 수 있는 30k\\+ ML 서브레딧, 40k\\+ 페이스북 커뮤니티, 디스코드 채널 및 이메일 뉴스레터에 가입하는 것을 잊지 마세요.

저희의 노력에 감사하는 분들을 위해 존경받는 뉴스레터를 구독해 주시기 바랍니다. 뉴스레터는 여러분의 관심을 더욱 불러일으킬 최신 노력과 제품에 대한 업데이트를 받아볼 수 있는 훌륭한 플랫폼이 될 것입니다.

익명의 단체가 후원하는 새로운 솔루션 덕분에 이제 개인이 수행하는 프로젝트 관리를 중단할 수 있는 날이 머지않았습니다. 이 획기적인 개발은 프로젝트 관리 방식을 혁신하고 효율성과 생산성을 크게 향상시킬 것을 약속합니다.