CMU 연구진이 FROMAGe를 소개합니다: 프로즌 대형 언어 모델(LLM)을 효율적으로 부트스트랩하여 이미지가 삽입된 자유 형식의 텍스트를 생성하는 AI 모델
Contents
(1) 사진과 텍스트가 산재한 시퀀스에서 문맥 이미지 검색, (2) 시각적 대화에서 우수한 제로 샷 성능, (3) 이미지 검색을 위한 향상된 담화 맥락 감도. 이 연구 결과는 길고 일관된 멀티모달 시퀀스를 학습하고 생성할 수 있는 모델에 대한 문을 열어줍니다. 또한 시각적 기반 작업에서 사전 학습된 텍스트 전용 LLM의 기능을 강조합니다. 더 많은 연구 개발을 촉진하기 위해 코드와 사전 학습된 모델은 곧 일반 대중에게 공개될 예정입니다.
접근 방식을 사용하면 언어 모델이 시각 영역에 기반을 두고 임의로 산재된 이미지-텍스트 입력을 처리하고 일관된 이미지-텍스트 출력을 생성할 수 있습니다. 녹색 말풍선은 모델에 의해 생성되는 반면, 회색 말풍선은 입력 프롬프트를 나타냅니다.
논문 , 프로젝트 , Github 을 확인하세요. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 최신 AI 연구 뉴스, 멋진 AI 프로젝트 등을 공유하는 13k+ ML 서브 레딧, Discord 채널, 이메일 뉴스레터에 가입하는 것을 잊지 마세요.
StoryBird.ai의 최신 업데이트에서는 사용자가 선택한 프롬프트를 사용하여 일러스트 내러티브를 만들 수 있는 몇 가지 주목할 만한 기능이 도입되었습니다. 이 혁신적인 도구를 살펴보고 싶다면 제공된 링크(스폰서 링크)를 클릭하세요.