딥 러닝이 항상 배열 데이터에서 수행되는 이유 새로운 AI 연구에서 데이터에서 펑타까지 하나로 취급하는 '공간 펑타'를 소개합니다.
신경 분야라고도 하는 암시적 신경 표현(INR)은 3D 좌표를 공간 내의 해당 색상 및 밀도 값에 매핑하여 3차원 장면과 같은 특정 분야를 나타내는 좌표 기반 신경망의 한 유형입니다. 이 접근 방식은 최근 컴퓨터 비전 분야에서 이미지, 3D 도형
등 신호를 인코딩하는 수단으로 큰 주목을 받고 있습니다. 최근의 개발로 기존의 픽셀 기반 접근 방식에 의존하지 않고 필드 표현에 딥러닝 기술을 직접 적용할 수 있는 Functa라는 대체 방법론이 도입되었습니다. 이 새로운 프레임워크는 이미지 합성, 예측, 분류와 같은 다양한 영역에서 능숙함을 입증했으며, 이미지와 복셀부터 기후 데이터와 3D 장면에 이르는 다양한 데이터 세트를 처리할 수 있습니다. 그러나 그 효과는 CelebA-HQ 64 64 및 ShapeNet과 같이 더 작거나 단순한 데이터 세트에 국한되어 있습니다.
이전 연구에 따르면 제한된 데이터 세트로 작업할 때에도 신경망을 사용하여 딥러닝 기법을 다양한 양식에 적용할 수 있는 것으로 나타났습니다. 그러나 이 접근 방식은 CIFAR-10의 분류 및 생성 작업에 대한 성능 측면에서 비효율적인 것으로 판명되었습니다. 이 결과는 연구자들에게 놀라움을 안겨주었는데, CIFAR-10의 신경망 필드 표현이 매우 정확하고 전체 데이터 세트를 활용한 다운스트림 작업의 완성을 지원할 수 있는 것으로 밝혀졌기 때문입니다.
최근 딥마인드와 하이파 대학교가 공동으로 수행한 연구에서는 보다 복잡하고 포괄적인 데이터 세트에서 기능적 표현(펑타)의 범위를 향상시키기 위한 새로운 접근 방식을 제안했습니다. 연구팀은 먼저 CelebA-HQ 데이터 세트에서 이전에 보고된 펑타의 성공을 재현하여 방법론을 검증했습니다. 그 후, 연구팀은 이 방법을 CIFAR-10 데이터 세트의 여러 다운스트림 작업에 적용하여 분류 및 생성 모델링 작업 모두에서 실망스러운 성능을 보였습니다.
공간 함수는 잠재 변수의 공간적으로 정렬된 표현을 도입하여 평면 잠재 벡터를 향상시킵니다. 이렇게 하면 모든 공간 인덱스의 특징이 가능한 모든 위치에서 데이터를 수집하는 대신 특정 위치에 특정한 정보를 추출할 수 있습니다. 이 사소한 수정 덕분에 공간 데이터를 구성하는 데 적합한 유도 바이어스(Inductive Bias)를 가진 위치 인코딩과 U-넷을 통합한 트랜스포머를 포함해 다운스트림 작업을 처리하는 데 고급 아키텍처를 사용할 수 있습니다.
앞서 언급한 발견을 통해 FunctA 프레임워크는 256x256픽셀 해상도의 ImageNet-1k와 같은 크고 복잡한 데이터 세트를 처리할 수 있습니다.또한, 이 연구 결과는 CIFAR-10에 존재하는 제약 조건이 Spatial FuctA의 활용을 통해 해결될 수 있음을 보여줍니다. 이러한 결과는 분류에서 ViT의 성능과 일치할 뿐만 아니라 잠재 확산 모델에 의해 생성된 이미지와 비슷한 이미지를 생성합니다.
연구팀은 신경장이 이러한 양상의 배열 표현에 포함된 방대한 양의 중복 정보를 효율적으로 처리할 수 있는 능력을 갖추고 있기 때문에 FUNCTA 프레임워크가 고차원 양상을 처리할 때 탁월한 성능을 발휘할 것이라고 확신하고 있습니다.
논문 및 Github 을 확인하세요. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 최신 AI 연구 소식, 멋진 AI 프로젝트 등을 공유하는 14k+ ML 서브 레딧, Discord 채널, 이메일 뉴스레터에 가입하는 것을 잊지 마세요.
최근 사용자가 주어진 프롬프트를 사용하여 일러스트레이션 내러티브를 만들 수 있는 새로운 기능이 StoryBird.ai 플랫폼에 추가되었다는 흥미로운 소식을 전해 들었습니다. 이 혁신에 관심이 있으시다면 앞서 언급한 웹사이트에서 자세한 내용을 확인하시기 바랍니다. 이 정보는 후원을 통해 제공됩니다.