Contents

구글과 CMU의 시맨틱 피라미드 자동 인코더, 프로즌 LLM으로 멀티모달 생성을 위한 첫 번째 시도 성공

Contents

프로즌 LLM이 멀티모달 작업을 해결할 수 있나요?

프로즌 LLM을 사용한 멀티모달 생성을 위한 시맨틱 피라미드 자동 인코더는 프로즌 대형 언어 모델이 크로스 모달 작업을 효과적으로 처리할 수 있도록 하는 새로운 접근 방식으로, 현재 이미지 이해 모델에 비해 25% 이상 향상된 우수한 성능을 제공합니다.

/images/google-cmus-semantic-pyramid-autoencoder-marks-the-first-successful-attempt-for-multimodal-generation-with-frozen-llms.png

저자들이 제출한 주요 논문을 다음과 같이 요약합니다:

언어 토큰으로만 훈련된 고정 언어 모델을 사용하여 문맥 내 학습을 통해 이미지 콘텐츠를 직접 생성하는 방법은 저희가 아는 한 최초로 성공한 방법입니다. 길이를 조절할 수 있는 다국어 언어 토큰의 형태로 의미론적 개념과 세분화된 세부 사항을 해석 가능한 표현으로 생성하는 새로운 SPAE 토큰화기를 소개합니다. 긴 교차 모달 시퀀스의 문맥 내 생성을 용이하게 하는 새로운 점진적 프롬프트 방법을 제안합니다. 시각적 이해 및 생성 작업에 대해 우리의 방법을 평가하고, 특히 우리의 접근 방식은 동일한 문맥 내 설정에서 가장 잘 알려진 몇 장의 이미지 분류 정확도를 절대적으로 25% 능가하는 것으로 나타났습니다. /images/google-cmus-semantic-pyramid-autoencoder-marks-the-first-successful-attempt-for-multimodal-generation-with-frozen-llms-1.png

이 프로젝트의 목적은 이미지, 비디오, 오디오 등 여러 유형의 데이터를 이해 가능한 언어 시퀀스로 표현하여 처리 및 분석할 수 있는 모델을 생성하기 위해 사전 학습된 언어 모델(LLM)을 활용하는 방법론을 개발하는 것입니다. 제안된 접근 방식은 중요한 의미 정보를 보존할 뿐만 아니라 정확한 신호 재구성에 필요한 세부 기능을 포함하는 어휘 장면 표현(LSR)을 생성하는 것을 포함합니다.

SPAE의 아키텍처는 피라미드 구조로 구성된 멀티스케일 표현을 사용하며, 상위 레벨은 중심 의미 개념을 구성하고 하위 레벨은 이미지 복원의 복잡한 세부 사항을 캡처하는 데 중점을 둡니다. 이 프레임워크를 통해 SPAE는 다양한 작업에 맞게 토큰 길이를 유연하게 수정할 수 있습니다. 결과적으로 SPAE는 입력 이미지를 사전 학습된 LLM이 이해할 수 있는 언어 형식으로 변환할 수 있으므로, 당면한 작업에 특정한 이미지-텍스트 쌍을 추가로 학습할 필요 없이 조건부 이미지 이해 및 생성을 위한 강력한 기능을 후자에 부여할 수 있습니다.

/images/google-cmus-semantic-pyramid-autoencoder-marks-the-first-successful-attempt-for-multimodal-generation-with-frozen-llms-2.png /images/google-cmus-semantic-pyramid-autoencoder-marks-the-first-successful-attempt-for-multimodal-generation-with-frozen-llms-3.png

실험 분석에서는 시각적 이해 및 생성 작업과 관련하여 SPAE의 성능을 조사했습니다. 그 결과, SPAE 토큰을 활용할 때 VQGAN 베이스 라인과 같은 다른 방법과 달리 더 높은 수준의 의미적 일관성을 달성할 수 있음을 입증했습니다.또한 SPAE는 동일한 테스트 조건에서 표준 몇 장의 이미지 분류 방식에 비해 일관된 우월성을 보였으며, LQAE에 비해 25% 개선되었습니다.

이 연구는 특정 양식에 대한 추가 교육 없이도 다중 양식 이해 및 생성 작업에서 사전 학습된 언어 모델의 기능을 보여줍니다.

논문 SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLM arXiv .