단일 이미지의 모델을 5초 만에 3D로 재구성하는 Adobe & ANU의 LRM
단조로운 2차원 이미지에서 순식간에 사물의 3차원 묘사를 만들어내는 것의 매력은 부정할 수 없습니다. 이러한 발전은 산업 디자인, 애니메이션, 게임, 증강현실, 가상현실 등 다양한 분야에 큰 영향을 미칠 수 있는 잠재력을 가지고 있습니다. 또한, 최근 자연어 처리 및 이미지 처리 분야의 발전으로 전문가들은 단일 이미지만을 입력으로 사용하여 물체를 재현할 수 있는 범용 3D 프레임워크를 확보할 수 있는 가능성을 모색하고 있습니다.
단일 이미지를 3D로 변환하는 대규모 재구성 모델"은 Adobe Research와 호주 국립 대학교의 연구진이 협력하여 5초라는 매우 짧은 시간 내에 단일 입력 이미지를 기반으로 물체의 3차원 표현을 생성하는 놀라운 능력을 보여주는 전례 없는 대규모 재구성 모델(LRM)을 선보입니다.
롱 레인지 메시(LRM) 방식은 강력한 트랜스포머 기반 인코더-디코더 프레임워크를 활용하여 데이터 중심 접근 방식을 사용하여 이미지에서 직접 3차원 물체 표현을 도출합니다. 입력 이미지가 주어지면 LRM 모델은 삼면 구성으로 표현되는 신경 방사 필드(NeRF)를 출력합니다. 이 작업을 수행하기 위해 LRM은 이미지 특징 생성기로서 사전 학습된 시각 변환기 DINO(Caron 등이 제안한)를 활용합니다. 그런 다음 LRM은 교차 주의 메커니즘을 통해 2차원 이미지 특징을 3차원 삼면 공간에 투영하는 이미지-삼면 변환기 디코더를 훈련합니다. 이를 통해 LRM은 복잡한 관계를 효과적으로 모델링합니다
디코더에서 변환된 출력은 이후 재구성되고 보간되어 최종 삼면 특징 맵을 생성합니다. 이 프로세스를 통해 대형 방사도 맵(LRM)은 모든 위치의 삼면 특징을 해석하여 임의의 관점에서 시각화를 생성할 수 있습니다. 이 목표를 달성하기 위해 LRM은 색조와 밀도를 결정하여 체적 표현을 지원하는 추가적인 협업형 다층 퍼셉트론(MLP)을 사용합니다.
LRM을 다른 제품과 구별하는 고유한 특징은 뛰어난 확장성과 성능을 특징으로 하는 아키텍처에 있습니다. 전적으로 트랜스포머 기반 파이프라인을 사용하는 삼면 NeRF는 3D 표현을 위한 컴팩트함과 확장성을 보여줍니다. 복셀이나 포인트 클라우드와 같은 다른 방법과 비교하여 높은 수준의 정밀도를 유지하면서 계산 효율성을 발휘합니다. 또한 이 모델은 해당 입력 이미지에 대한 강력한 로컬리티를 보여줍니다.
LRM의 주목할 만한 특징은 익숙하지 않은 시점에서 합성 이미지와 해당 지상 실측 이미지 간의 차이를 줄이는 데 중점을 둔 훈련 절차에 있습니다. 이는 3D를 고려한 최소한의 미세 조정이나 정교한 하이퍼 파라미터 조정이 필요한 효율적인 훈련 프로세스를 통해 달성되며, 이를 통해 다양한 다시점 시각 데이터 수집에서 모델을 매우 실용적이고 다재다능하게 렌더링할 수 있습니다.
경험적 증거에 따르면 LRM은 실제 사진, 인공적으로 생성된 시각 콘텐츠, 다양한 텍스처 패턴을 보이는 다양한 피사체를 묘사한 이미지 등 다양한 입력 소스에서 3D 모델을 재구성하는 데 탁월한 정확성을 보여줍니다. 이는 One-2-3-45와 같은 다른 현대적 접근 방식과 비교할 때 단일 이미지를 3차원 표현으로 변환하는 최첨단 방법론으로 렌더링됩니다.
이 혁신적인 연구는 일상에서 발견한 제한되지 않은 자연스러운 사진에서 수집한 모든 물체의 3차원 표현을 신속하게 생성할 수 있는 대규모 모델링(LRM)의 역량을 보여줍니다. 이러한 발전으로 다양한 영역에서 빠르고 정확한 3차원 복제 기능을 활용할 수 있는 실용적인 활용 범위가 확대되고 있습니다.
비디오 데모와 인터랙티브 3D 메쉬는 이 웹사이트에서 확인할 수 있습니다: https://yiconghong.me/LRM/ . 논문 arXiv 의 LRM: Single Image to 3D를 위한 대규모 재구성 모델 .