Contents

이 AI 백서에서는 비전 언어 모델(VLM)에 대한 새롭고 중요한 도전 과제인 UPD(Unsolvable Problem Detection)를 소개합니다.

Contents

인공지능의 급속한 발전이 특징인 현대에 시각 언어 모델(VLM)은 시각과 언어 이해의 조화로운 결합을 통해 머신러닝의 역량을 확장하는 혁신적인 발전을 이루었습니다. 그럼에도 불구하고 이러한 모델의 영향력이 계속 커지면서 그 신뢰성과 신뢰성에 대한 우려가 커지고 있습니다. 이러한 우려를 해소하기 위해 연구자들은 해결 불가능한 문제 탐지(UPD)라는 혁신적인 접근 방식을 도입했습니다. 그림 1에 설명된 이 획기적인 방법론은 해결이 불가능하거나 중요하지 않은 쿼리를 감지하여 부적절한 응답을 제공하는 것을 방지하는 VLM의 적성을 평가하는 것입니다.

UPD(개발 중 불확실성 보존)와 관련된 주요 어려움 중 하나는 쿼리가 묘사된 시각 정보와 일치하지 않거나 사용 가능한 대안 중에서 유효한 응답을 제공하지 못하는 경우를 감지해야 하는 시각 언어 모델(VLM)의 요구 사항에 있습니다. 불규칙한 시험 문제를 접했을 때 학생이 손을 드는 것과 마찬가지로, VLM은 본질적으로 풀 수 없는 문제를 식별하고 응답을 자제할 수 있어야 하며, 이를 통해 신뢰성과 신뢰도를 높일 수 있습니다.

연구자들은 난해한 문제를 해결하는 데 있어 벡터 언어 모델(VLM)의 효율성을 평가하고 분석하기 위해 UPD(Unsolvability Proving Domain)라는 이름으로 세 가지 문제 유형을 고안해냈습니다.

부재 정답 탐지(AAD): 제공된 선택지에 정답이 없는 경우, 이를 인식하는 모델의 능력을 테스트합니다. 호환되지 않는 답 세트 감지(IASD): IASD는 답 세트가 문맥과 전혀 관련이 없는 경우를 식별하는 모델의 능력을 평가합니다. 호환되지 않는 시각적 질문 감지(IVQD). IVQD는 시각적 콘텐츠와 텍스트 질문 간의 정렬에 대한 모델의 이해도를 평가하여 이미지-질문 쌍이 호환되지 않는 경우를 찾아내는 데 도전합니다. /images/this-ai-paper-introduces-a-novel-and-significant-challenge-for-vision-language-models-vlms-termed-unsolvable-problem-detection-upd.png

이러한 특정 문제 범주를 더 깊이 파고들기 위해 연구자들은 추상적 답변 난이도(AAD), 암시적 유추 해결 난이도(IASD), 이미지-텍스트 시각적 질문 답변(IVQD) 과제에 맞는 벤치마크를 설계하여 MMBench 데이터 세트를 신중하게 만들었습니다. 이 맞춤형 벤치마크를 활용하여 다양한 모델 크기(13B 및 34B)의 LLaVA-1.5-13B, CogVLM-17B, Qwen-VL-Chat, LLaVA-NeXT, Gemini-Pro, GPT-4V(시각화) 등 여러 최첨단 벡터 언어 모델(VLM)의 기능을 평가했습니다.

결과는 흥미로운 스토리를 제시합니다.많은 초대형 모델(VLM)은 기존 쿼리에서 만족스러운 정확도를 보임에도 불구하고 난해한 문제를 식별하고 해결하지 못해 어려움을 겪고 있습니다. GPT-4V 및 LLaVA-Next-34B와 같은 보다 확장된 모델이 전반적으로 더 나은 성능을 발휘하는 경향이 있지만, 그럼에도 불구하고 특정 적성과 상황에서는 단점을 드러냅니다. 예를 들어, GPT-4V는 속성 비교, 자연, 사회적 상호 작용, AAD 프레임워크 내 기능 결정에 어려움을 겪는 반면 LLaVA-Next-34B는 현지화 작업을 위한 물체를 정확히 찾아내는 데 어려움을 겪습니다.

UPD(불확실성 프롬프트 감지)를 처리하는 VLM의 성능을 향상시키기 위한 다양한 프롬프트 엔지니어링 기법을 조사한 결과, 다양한 VLM 아키텍처에서 다양한 결과가 나타났습니다. 예를 들어, “위의 항목 없음” 또는 모델에 응답을 자제하도록 촉구하는 지시문과 같은 대체 선택 사항을 통합하는 것이 조사되었습니다. 이러한 접근 방식은 고려 중인 특정 VLM에 따라 다양한 수준의 효능을 보여줍니다. 특히, 보완적인 대안을 추가하는 것이 LLaVA-1.5와 CogVLM 모두에 유리한 것으로 나타났으며, 응답을 자제하라는 지침을 제공하는 것이 Gemini-Pro와 LLaVA-Nexts에 유용한 것으로 나타났습니다. 흥미로운 점은 추가 지침을 제공하면 UPD 정밀도가 향상되었지만

이 연구에서는 신속한 엔지니어링 외에도 교육에 기반한 방법론인 지침 튜닝도 조사했는데, 다양한 시나리오에서 우수한 결과를 보여주었습니다. 그럼에도 불구하고 LLaVA-Next-13B와 같은 보다 컴팩트한 초저자원 언어(VLR)로 AAD 성능을 최적화하고 만족스러운 결과를 달성하는 데는 여전히 문제가 있었으며, 이는 모델 규모와 용량 모두 UPD 효율성에 영향을 미치는 중요한 요소임을 시사합니다.

본질적으로 이 연구는 의도하지 않은 프롬프트 감지(UPD) 문제의 복잡성을 보여주고 시각 언어 모델(VLM)의 신뢰성을 강화하기 위한 창의적인 전략의 중요성을 강조합니다. 일부 진전이 이루어졌지만 아직 상당한 진전이 필요합니다. 향후 연구에서는 연쇄 추론 기법, 더 복잡한 쿼리를 처리할 수 있는 시스템 기능 확장, 사후 탐지 방법론 고안 등을 탐구할 수 있습니다.

논문 Github 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들께 뉴스레터 구독을 권해드리며, 뉴스레터를 통해 최신 개발 및 업데이트에 대한 정보를 얻을 수 있는 좋은 기회이니 관심 있는 분들의 많은 구독을 부탁드립니다.

현재 39,000명 이상의 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

빠르게 확장 중인 뉴스레터를 구독하고 Google, NVIDIA, Meta, 스탠포드, MIT, Microsoft 등 저명한 기관의 선도적인 연구자들이 읽는 뉴스레터를 받아보세요.