Contents

AI 상호작용의 혁신: 시각 및 텍스트 기반 이해력에서 탁월한 성능을 발휘하며 멀티모달 지시-추종 모델의 새로운 시대를 연 LLaVAR

Contents

여러 작업을 단일 명령어로 결합하면 명령어가 새로운 작업으로 일반화되는 능력이 향상되는 것으로 밝혀졌습니다. 개방형 쿼리를 처리할 수 있는 이러한 기능은 ChatGPT 2에서 시연된 것과 같은 발전으로 최근 챗봇에 대한 관심이 급증하는 데 중요한 역할을 했습니다. 시각 정보를 처리할 수 있는 대화형 에이전트에 CLIP-ViT와 같은 시각 인코더 모델을 통합함으로써 이미지를 활용한 인간과 기계의 상호 작용이 가능해졌습니다. 그러나 이러한 시스템은 여전히 시각 미디어에 포함된 텍스트를 이해하는 데 도움이 필요하며, 이는 개발 과정에서 자연 이미지 학습 데이터(예: 개념적 캡션 및 COCO)가 널리 보급되었기 때문일 수 있습니다. 그럼에도 불구하고 광학 문자 인식(OCR) 기술을 통한 텍스트 인식은 여전히 중요한 측면으로 남아 있습니다.

더 긴 문맥을 인식하기 위한 계산 기능을 향상시키는 과정에는 시각적 지침 수정 모델을 시각적 지침의 입력 스트림에 통합하는 것이 포함되지만, 인코딩 잠재력을 완전히 활용하지는 못합니다. 이러한 모델의 성능을 향상시키기 위해 이미지 내 단어 배치에 대한 이해가 필요한 명령어 준수 데이터로 구성된 데이터 세트가 수집됩니다. 이는 텍스트가 많은 이미지에 대한 수동 지침과 광학 문자 인식 결과를 결합하여 달성할 수 있습니다. 특히 저자들은 이 방법론을 통해 422,071건의 노이즈가 포함된 명령어 팔로잉 데이터를 수집했습니다.

대량의 노이즈 정렬 데이터를 활용하면 언어적 특징과 시각적 정보의 정렬이 크게 향상됩니다. 또한 텍스트 기반 GPT-4 모델이 OCR 결과와 이미지 캡션을 기반으로 약 16,000개의 대화를 생성하도록 유도하여 지침을 이해하는 데 훌륭한 예시로 활용할 수 있습니다. 정교한 안내를 생성하려면 입력에 따라 달라지므로 GPT-4는 OCR 데이터를 정리하고 고유한 쿼리를 공식화해야 합니다(그림 1 참조). 획득한 데이터의 효과를 평가하기 위해 저자는 노이즈가 있는 샘플과 고품질 샘플을 모두 사용하여 LLaVA의 사전 훈련 및 미세 조정 단계를 모두 통합합니다.

/images/transforming-ai-interaction-llavar-outperforms-in-visual-and-text-based-comprehension-marking-a-new-era-in-multimodal-instruction-following-models.png 그림 1은 명령어 추종에 대한 통계가 얼마나 정확하게 수집되는지 보여줍니다. | https://arxiv.org/pdf/2306.17107.pdf

조지아 공과대학교, Adobe Research, 스탠포드 대학교의 연구진으로 구성된 연구팀은 LLaVA를 확장한 새로운 AI 모델인 LLaVAR을 개발했습니다. 이 개발의 목적은 기존 LLaVA에 비해 입력 이미지 해상도를 2242에서 3362로 높여 사소한 텍스트 세부 사항을 인식하고 해석하는 모델의 능력을 향상시키는 것이었습니다.개선된 모델의 성능은 4개의 텍스트 기반 VQA 데이터 세트와 ScienceQA 데이터 세트에서 모델을 미세 조정한 후 얻은 결과를 사용하여 평가되었습니다. 또한 연구팀은 시각 정보 처리 능력을 기반으로 모델의 명령어 추종 능력을 평가하기 위해 LAION의 텍스트가 풍부한 이미지 50개와 COCO의 자연 이미지 30개를 사용했습니다. 마지막

결론적으로, 연구팀은 다음과 같이 기여했습니다:

저자들은 총 16,000개의 고품질 및 422,000개의 노이즈가 있는 명령어 추종 데이터 세트를 확보했으며, 이 데이터 세트는 모두 명령어의 시각적 튜닝을 향상시키는 것으로 입증되었습니다. 모델 용량을 개선한 결과, 자연스러운 이미지 처리 작업에서 중간 수준의 성능을 유지하면서 텍스트와 이미지 등 다양한 형태의 온라인 콘텐츠가 포함된 엔드투엔드 상호작용을 처리할 수 있는 모델인 LLaVAR을 개발할 수 있게 되었습니다.

훈련 및 평가 데이터 세트와 모델의 중요한 이벤트 및 진행 상황 업데이트를 포함한 앞서 언급한 자료는 일반인의 접근성을 위해 공개적으로 공개되었습니다.

StoryBird.ai의 최신 발전으로 사용자가 주어진 프롬프트를 입력해 일러스트 내러티브를 만들 수 있는 놀라운 기능이 추가되었습니다. 제공된 링크를 클릭하여 이 혁신적인 기능을 직접 체험해 보시기 바랍니다. 이 정보는 후원받은 정보임을 알려드립니다.