OpenAI GPT의 데이터를 사용하지 않고도 GPT-4 성능에 도달한 NVIDIA의 ChatQA
ChatGPT(OpenAI, 2022)의 발전과 그에 따른 개정은 산업계와 학계 모두에서 질문-응답(QA) 모델의 진화에 주목할 만한 변화를 가져왔습니다. 그럼에도 불구하고 GPT-4와 같은 최첨단 블랙박스 대안의 정밀도를 모방할 수 있는 대화형 QA 모델을 고안하는 것은 조사자들에게 여전히 어려운 과제로 남아 있습니다.
“GPT-4 지원 대화형 질문 답변 시스템 개발"에서 NVIDIA 연구 그룹은 OpenAI GPT 플랫폼에서 얻은 인위적으로 생성된 데이터를 활용하지 않고도 GPT-4와 동등한 성능을 발휘하는 고급 대화형 질문 답변 시스템 모음인 ChatQA를 소개합니다.
조사 초기 단계에서 조사자들은 ChatQA의 성능을 개선하기 위한 2단계 프로세스를 도입했습니다. 이 방법에는 명령어 팔로잉과 대화 데이터 세트를 모두 사용하는 감독 미세 조정(SFT)의 적용이 포함되며, 이를 통해 모델에 대화 환경 내에서 능숙하게 상호 작용할 수 있는 능력을 부여합니다. 그 후, 문맥 강화 인스트럭션 튜닝이라는 추가 단계를 구현하여 질문과 답변 상호 작용 과정에서 상황적 요인에 민감하거나 검색된 정보에 기반한 응답을 생성하는 모델의 역량을 강화합니다.
저자들은 사용자가 제공하거나 검색 프로세스를 통해 제공된 컨텍스트를 통합하여 제로 샷 대화 질문 답변 작업에서 언어 모델의 성능을 크게 개선하는 것을 목표로 설계된 HumanAnnotatedConvQA라는 추가 데이터 세트를 소개합니다.
연구진은 실험적 조사를 통해 Llama2-7B, Llama2-13B, Llama2-70B(투브론 외, 2023)와 독점적인 GPT-8B, GPT-22B 아키텍처를 활용하는 다양한 변형 ChatQA 모델을 개발했습니다. 10개의 대화형 질문 답변 데이터 세트에 걸친 철저한 평가를 통해 철저한 평가를 제공합니다. 흥미롭게도 ChatQA-70B 모델은 평균 54.14점을 기록해 GPT3.5 터보의 50.37점과 GPT-4의 53.90점을 모두 뛰어넘었습니다.
또한 조사자들은 주어진 또는 획득한 컨텍스트 내에서 선호하는 답변을 사용할 수 없을 때 발생하는 ‘결정적이지 않은’ 상황에 대해 자세히 살펴봅니다. 이러한 상황에 직면하면 언어 모델은 ‘응답할 수 없음’과 같은 대체 응답을 생성하여 잘못된 정보가 유포되는 것을 방지해야 합니다.흥미롭게도 이 시나리오를 관리할 때 ChatQA-70B는 GPT-4와 약간의 차이가 있지만(약 3.5% 차이) GPT-3.5-turbo보다 성능이 뛰어납니다.
논문 ChatQA: GPT-4 수준의 대화형 QA 모델 구축 arXiv .