Contents

INSTRUCTIR: 정보 검색에서 인스트럭션을 평가하기 위한 새로운 머신러닝 벤치마크

Contents

대규모 언어 모델은 다양한 생성 활동에서 개인의 취향 및 지시와 동기화하기 위해 점진적으로 개선되고 있으며, 이는 정보 검색 시스템이 다양한 사용자 검색 의도와 성향을 적절히 수용하는 데 필수적인 요소입니다.

기존 정보 검색 시스템은 일반적으로 개별화된 사용자 요구 사항을 충족하는 동시에 부정확한 검색 요청을 처리하는 데 부족함이 있습니다. 또한, 전문화된 평가 지표가 부족하여 정보 검색 과정에서 사용자의 특정 요구에 부합하는 고급 기술을 개발하는 데 어려움을 겪고 있습니다.

앞서 언급한 문제를 해결하기 위해 카이스트는 INSTRUCTIR라는 혁신적인 벤치마크를 개발했습니다. 기존 접근 방식과 차별화되는 INSTRUCTIR는 실제 검색 컨텍스트를 재현하여 개별 쿼리에 맞는 다양한 사용자별 지침을 준수하는 검색 모델의 능력을 평가합니다. 차별화된 주요 특징은 사용자의 배경 정보, 상황, 선호도, 목적 등을 포괄하는 지침의 세분성에 중점을 둔다는 점입니다. 이러한 교육적 세부 정보는 GPT-4와 같은 최신 언어 모델을 활용한 철저한 데이터 생성 프로세스를 통해 공들여 생성되며, 데이터 세트 무결성을 보장하기 위해 엄격한 인적 평가 및 자동 필터링 절차를 거칩니다.

INSTRUCTIR는 다양한 사용자 명령에 대응하는 정보 검색 시스템의 복원력을 평가하기 위한 신뢰할 수 있는 평가 방법으로 견고성 점수를 제시합니다. 이 지표는 이러한 시스템이 다양한 교육 스타일에 얼마나 잘 적응할 수 있는지에 대한 전체적인 관점을 제공합니다. 훈련되지 않은 모델부터 명령어 준수를 위해 특별히 미세 조정된 모델까지 총 12개의 최신 리트리버 모델을 INSTRUCTIR를 사용하여 조사했습니다. 예상외로 전자가 후자 그룹보다 우수한 성적을 보였는데, 이는 표준화된 테스트 방법으로 관찰한 이전의 결과와 대조적입니다. 고급 명령어 감지 언어 모델과 확장된 모델 아키텍처를 활용함으로써 전반적인 효율성이 크게 향상되었습니다.

INSTRUCTIR는 특정 사용자 요구 사항을 처리하는 정보 검색 모델의 기능을 평가할 때 광범위한 작업 지향 지침에 의존하지 않고 인스턴스 수준 접근 방식을 채택합니다. 이렇게 세밀하게 조정된 방법론을 통해 이러한 모델이 다양한 상황과 선호도에 걸쳐 개별화된 사용자 기대에 어떻게 적응할 수 있는지를 보다 정교하게 평가할 수 있습니다. 각 문의에 맞춘 사용자 중심의 개별적인 가이드라인을 통합함으로써 INSTRUCTIR는 사용자의 의도와 성향이 상당히 다양하게 나타나는 실제 검색 상황의 다면적인 특성을 포착합니다.

INSTRUCTIR는 검색 시스템이 특정 작업을 이해하고 고유한 사용자 요구의 복잡성에 적응할 수 있도록 정교한 평가를 제공합니다. 따라서 정보 검색 시스템의 발전을 위한 영향력 있는 에이전트 역할을 하여 다양한 검색 목표와 성향에 따라 사용자 만족도를 높이고 성능을 향상시킵니다.

INSTRUCTIR 프로젝트를 통해 현재의 검색 시스템을 조사함으로써 다양한 속성에 관한 중요한 인사이트를 발견했습니다. 이러한 지식은 지침을 고려한 고급 정보 액세스 시스템을 만드는 데 도움이 될 것입니다. INSTRUCTIR 벤치마크를 통해 표준화된 테스트 기반을 구축함으로써 검색 작업 내 지침 준수 메커니즘을 개선하는 데 상당한 진전을 이룰 수 있으며, 궁극적으로 유연하고 사용자 중심의 검색 시스템이 등장할 수 있습니다.

논문 Github 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터와 구글 뉴스 를 팔로우하는 것도 잊지 마세요. 38k\\+ ML 서브레딧, 41k\\+ 페이스북 커뮤니티, 디스코드 채널, LinkedIn Gr up 에 가입하세요.

저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시면 더욱 흥미를 유발할 수 있는 최신 노력과 제품에 대한 정보를 얻을 수 있는 훌륭한 플랫폼이 될 것입니다.

텔레그램 채널에 가입하는 것을 잊지 마세요

무료로 제공되는 다양한 AI 강좌에 여러분을 초대합니다.

리트리버가 내 의도와 선호도를 포함한 📝지시📝를 따를 수 있나요?
정보 검색에서 명령어 팔로잉을 평가하기 위한 벤치마크인 INSTRUCTIR을 소개합니다. [1/N] pic.twitter.com/0J3TtqPcdw

- 오한석 (@hanseok_oh) 2024년 2월 29일

Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 등 저명한 기관의 전문가들이 구독하는 빠르게 확장하는 AI 연구 뉴스레터를 구독해 보세요.