Contents

인공지능 연구, '칸딘스키1'을 공개합니다: COCO-30K에서 뛰어난 FID 점수를 획득한 잠재 확산 텍스트-이미지 생성의 새로운 접근 방식

Contents

컴퓨터 비전 분야는 최근 상당한 발전을 거듭해 왔으며, 그 결과 텍스트에서 이미지로 생성하는 영역에서 상당한 진전을 이루었습니다. 확산 프로세스에 기반한 아키텍처와 같은 다양한 생성 아키텍처는 생성된 시각적 콘텐츠의 품질과 다양성을 향상시키는 데 크게 기여했습니다. 이 글에서는 총 33억 개의 파라미터를 자랑하는 매우 강력한 모델인 칸딘스키1의 기본 개념, 특성 및 잠재력을 살펴봅니다. 또한 정량화 가능한 이미지 생성의 우수성 측면에서 이 모델의 뛰어난 성능을 보여줍니다.

텍스트-이미지 생성 모델은 콘텐츠 수준의 아티팩트를 보여주는 초기 자동 회귀 접근 방식에서 DALL-E 2 및 Imagen과 같은 고급 확산 기반 모델로 발전하는 등 상당한 진화를 거듭해 왔습니다. 이러한 확산 모델은 픽셀 수준 또는 잠재 수준으로 분류되며, GAN에 비해 고품질의 다양한 이미지를 생성하는 데 탁월한 성능을 보여줍니다. GLIDE 및 eDiff-I와 같은 모델은 적대적 훈련 기법에 의존하지 않고 텍스트 입력을 효과적으로 통합하여 저해상도 이미지를 생성하고, 이후 초고해상도 확산 모델을 사용하여 이미지를 향상시킬 수 있습니다. 결과적으로 이러한 개발은 텍스트-이미지 생성 분야에 혁신을 가져왔습니다.

AIRI, 스콜테크, 스베르 AI의 연구원들은 텍스트 입력을 기반으로 이미지를 생성하는 “칸딘스키"라는 혁신적인 새로운 접근 방식을 개발했습니다. 이 모델은 이미지 선행 모델과 함께 잠재 확산 기법을 통합하여 이미지 자동 인코더 구성 요소로 MoVQ의 수정된 버전을 활용합니다. 또한 칸딘스키는 이미지 사전 모델을 독립적으로 학습시켜 CLIP의 이미지 임베딩을 사용하여 텍스트 설명을 시각적 표현으로 변환합니다. 그 결과 시스템은 사용자에게 다양한 생성 기능의 유연성을 제공하는 동시에 모델의 소스 코드 및 학습 데이터에 대한 액세스를 제공합니다.

텍스트 인코딩, 임베딩 매핑(이미지 이전) 및 잠재 확산. 확산 프로세스의 효율성을 높이기 위해 포괄적인 데이터 세트 통계를 활용하여 시각적 임베딩의 요소별 정규화를 수행합니다.

칸딘스키 프레임워크는 텍스트-이미지 생성에서 탁월한 성능을 발휘하여 256x256픽셀 해상도에서 작동할 때 COCO-30K 검증 세트에서 8.03이라는 놀라운 FID 점수를 달성했습니다. 선형 사전 구성을 활용했을 때 가장 높은 FID 점수를 기록했으며, 이는 시각적 표현과 텍스트 표현 사이에 선형적 상관관계가 있을 수 있음을 시사합니다.이 기능을 설명하기 위해 고양이 이미지의 하위 집합을 사용하여 “고양이 이전"을 학습시켜 고품질 이미지를 생성하는 데 있어 우수성을 입증했습니다. 일반적으로 칸딘스키는 텍스트-이미지 합성 측면에서 현재의 최첨단 모델과 비교해도 뒤지지 않습니다.

칸딘스키는 이미지 생성 및 처리에 대한 혁신적인 접근 방식으로 다른 방식에 비해 탁월한 성능을 입증했습니다. 이 기술을 개발한 팀은 이미지 선행 설계 선택에 대한 광범위한 연구를 수행했으며, 특히 유망한 결과를 보여준 선형 선행의 사용에 중점을 두었습니다. 이 기술의 접근성을 높이기 위해, 웹 애플리케이션과 텔레그램 봇과 같은 사용자 친화적인 인터페이스를 개발했습니다. 앞으로는 고급 이미지 인코더 통합, UNet 아키텍처 개선, 텍스트 프롬프트 개선, 고해상도 이미지 생성, 로컬 편집 기능 및 물리 기반 컨트롤과 같은 기능 추가 등 여러 가지 개선이 필요한 부분이 있습니다. 이러한 발전은 큰 잠재력을 가지고 있지만, 실시간 검토 또는 구현을 통해 시스템에서 생성되는 우려되는 콘텐츠를 해결하는 방법을 고려하는 것이 중요합니다. 논문 Github 을 확인하세요. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 최신 AI 연구 소식, 멋진 AI 프로젝트 등을 공유하는 31k\\+ ML 서브 레딧, 40k\\+ 페이스북 커뮤니티, 디스코드 채널 및 이메일 뉴스레터에 가입하는 것을 잊지 마세요.

저희의 노력에 감사하는 분들께는 최신 성과와 이니셔티브에 대한 업데이트를 받아볼 수 있는 훌륭한 플랫폼인 뉴스레터를 구독해 주시기 바랍니다.

WhatsApp에도 진출했으며, 플랫폼 내 전용 AI 채널에 참여하여 인공지능 발전과 관련된 추가 논의와 인사이트를 얻으시기 바랍니다.

인공지능 분야의 최첨단 개발과 혁신에 대한 최신 콘텐츠를 제공하는 YouTube 채널을 구독하여 인공지능 연구의 최신 발전상을 경험하세요.