메타 AI, OpenEQA 출시: 개방형 어휘로 구현된 질문 답변 벤치마크
언어 원리를 본질적으로 파악하는 대규모 언어 모델(LLM)의 개발은 큰 진전을 이루었습니다. 그럼에도 불구하고 이러한 모델은 실시간 처리 능력 측면에서 여전히 부족합니다.
세련된 지능형 안경 세트 또는 인지 코어 역할을 하는 인공 지능 모듈이 장착된 가정용 오토마톤을 상상해 보세요. 이 인공지능 개체가 능숙함을 입증하려면 일반적인 언어 교환을 통해 의사소통을 하고 시각적 지각을 통해 주변 환경을 파악할 수 있는 능력을 갖춰야 합니다. 이는 메타 AI가 달성하고자 하는 고상한 목표와 일치하는 것으로, 엄청난 연구 장애물이 될 수 있습니다.
질의와 답변 간의 동등성(EQA)은 인공지능의 주변 환경에 대한 이해를 평가하는 데 사용되는 기법입니다. 이 접근법의 파급 효과는 이론적 연구의 경계를 뛰어넘어 초보적인 응용 분야에서도 일상 생활을 간소화할 수 있는 잠재력을 가지고 있습니다. 예를 들어, 거주지를 떠나야 하지만 직장 신분증을 찾을 수 없는 상황을 가정해 보겠습니다. 이러한 상황에서는 EQA가 분실된 물건을 찾는 데 도움을 줄 수 있습니다. 그럼에도 불구하고 AI 기술의 발전에도 불구하고 모라벡의 역설은 여전히 유효하며, 이는 현재 모델이 EQA 작업의 숙련도 측면에서 인간에 비해 계속 뒤처지고 있다는 사실을 강조합니다.
개방형 어휘 구현 질문 답변(OpenEQA) 패러다임으로 알려진 Meta의 획기적인 이니셔티브는 이 분야의 기존 방식에서 벗어난 개방형 쿼리를 활용하여 인공지능 시스템의 주변 환경에 대한 이해도를 평가하려는 최첨단 시도입니다. 개념적으로 이 방법론은 질문을 던지고 그에 대한 반응을 면밀히 조사함으로써 특정 주제에 대한 숙련도를 검사하는 과정과 유사합니다.
에피소드 기억 등가성(OpenEQA)은 두 가지 구성 요소로 이루어져 있습니다. 먼저, 구현된 인공 지능 엔티티가 과거의 사건을 기억하고 이를 쿼리에 응답하는 데 활용해야 합니다. 둘째, 에이전트가 답을 찾기 위해 환경으로부터 정보를 능동적으로 추구해야 합니다.
이 데이터 세트에는 실제 상황을 표현하기 위해 인간 전문가가 고안한 1,600개 이상의 전례 없는 질문-응답 쌍과 함께 180개 이상의 영화 및 실제 환경 캡처가 포함되어 있습니다. 또한 OpenEQA와 함께 개방형 어휘집을 사용하여 응답을 평가하는 LLM-Match라는 체계적인 평가 방법으로 구성되어 있습니다.블라인드 사용자 테스트 결과에 따르면 LLM-Match는 두 개인이 공유하는 유대감에 필적할 정도로 인간의 판단과 강한 상관관계를 보이는 것으로 나타났습니다.
조사 그룹은 가장 능숙한 모델(48.5%의 GPT-4V)을 포함한 인간의 성취도(85.9%)와 수많은 최첨단 비전 및 언어 기반 아키텍처(VLM)에 대한 OpenEQA의 평가 사이에 상당한 격차가 있음을 발견했습니다. 가장 진보적인 VLM조차도 공간 이해 쿼리에 어려움을 겪고 있다는 점은 시각 데이터를 통합하는 시스템이 이러한 측면을 충분히 활용하지 못한다는 것을 의미합니다. 본질적으로 이러한 모델은 그림 문의를 처리할 때 시각적 단서보다는 기존의 텍스트 지능에 주로 의존합니다. 이러한 연구 결과는 이러한 인지 능력을 구현하는 인공 개체가 감각 지각과 논리적 추론 모두에서 상당한 발전을 거쳐야
OpenEQA가 자연어 반응성과 광범위한 어휘를 포괄하는 복잡한 질문을 처리하는 능력을 조화시킬 수 있음을 시사합니다. 그 결과, 환경 지식에 대한 숙련도를 반영하는 동시에 선입견에 도전하는 이해하기 쉬운 지표를 제공합니다. 학자들은 환경 질문 답변(EQA)을 위한 최초의 개방형 어휘 벤치마크인 OpenEQA를 사용하여 장면 인식과 다중 모드 인지의 발전을 추적할 수 있을 것으로 예상하고 있습니다.
논문 , 프로젝트 , 및 블로그를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들께는 여러분의 관심을 불러일으킬 만한 최신 개발 및 업데이트에 대한 정보를 얻을 수 있는 훌륭한 플랫폼인 뉴스레터를 구독해 주시기를 진심으로 초대합니다.
4만 명이 넘는 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 등 저명한 기관의 전문가들이 열독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.