NVIDIA의 STEERLM 접근 방식: 사용자가 제어할 수 있는 언어 모델 지원
대규모 언어 모델(LLM)은 자연어를 이해하고 처리하는 능력을 크게 발전시켜 수많은 언어 작업에서 탁월한 숙련도를 입증했습니다. 그럼에도 불구하고 사용자 입력에 대한 정확한 응답을 촉진하는 것은 아직 완전히 해결되지 않은 복잡한 문제로 남아 있습니다. 기존의 접근 방식은 주로 레이블이 지정된 데이터를 기반으로 모델 파라미터를 조정하는 감독형 미세 조정(SFT)과 사용자 상호 작용 및 평가를 기반으로 LLM을 반복적으로 업데이트하여 인간의 기대와 선호도에 맞게 최적화하는 인간 피드백을 통한 강화 학습(RLHF)을 활용했습니다.
잠재적인 이점에도 불구하고 숨겨진 피드백을 사용한 강화 학습(RLHF)에는 단점도 있습니다. 학습 과정의 복잡한 특성과 런타임 중에 사용자가 제어할 수 없는 의도하지 않은 값이 포함될 수 있다는 점이 대표적인 우려 사항입니다. 또한 RLHF는 사용자 선호도를 더 풍부하게 파악할 수 있는 유용성, 유머, 유해성 등 보다 포괄적인 단서가 아닌 단일 차원의 피드백에 의존하는 경우가 많습니다.
RLHF에 대한 사용자 조정 가능한 대안으로서의 속성 조건부 SFT"에서 NVIDIA 연구 그룹은 사용자가 감독된 미세 조정을 통해 추론하는 동안 모델의 출력을 조정할 수 있는 STEERLM이라는 획기적인 접근 방식을 제시합니다. 이 혁신은 기존 방법과 ChatGPT-3.5를 포함한 RLHF 모델과 같은 고급 기술을 모두 능가하는 놀라운 결과를 달성했습니다.
저자들은 다음과 같은 방식으로 주요 성과를 간결하게 설명합니다.
STEERLM 소개: 언어 모델링 목표만을 활용하여 언어 모델 정렬을 위한 간단한 대안으로 제시된 것이 바로 STEERLM입니다. STEERLM 43B의 효율성: 이 연구는 Vicuna 벤치마크에서 STEERLM 43B의 놀라운 성능을 입증하며 ChatGPT-3.5와 같은 RLHF 모델을 포함한 최첨단 기준선을 능가합니다. 유연성 및 사용자 지정 가능성: STEERLM 43B는 적응성과 사용자 지정 기능으로 호평을 받고 있습니다. 사용자가 추론 시 모델 속성을 미세 조정할 수 있어 다양한 애플리케이션에 활용할 수 있습니다.
STEERLM은 언어 모델을 사용자 요구사항에 맞추는 데 있어 복잡하지 않고 창의적인 접근 방식을 제시합니다. 4가지 기본 단계로 구성된 계산 효율성 중심의 RLHF를 대체할 수 있는 솔루션입니다:
속성 예측 모델은 기본 언어 모델을 사용하여 예측된 속성 값을 기반으로 응답의 품질을 평가합니다. 이 모델은 다양한 데이터 세트에 주석을 달 때 활용할 수 있습니다. 특정 속성 값에 따라 기본 모델의 출력을 조건부로 조정하기 위해 속성 조건부 시퀀스 간(SFT) 접근 방식을 사용할 수 있습니다. 이 과정에서 특정 프롬프트와 정의된 속성 값이 주어지면 모델은 해당 특성에 맞는 출력을 생성하기 위해 미세 조정을 거칩니다. 또한 3단계에서 미세 조정된 모델에서 고품질 샘플을 선택하는 부트스트래핑 기법이 적용됩니다. 이를 통해 반복적인 미세 조정을 통해 모델의 성능을 더욱 향상시키는 것을 목표로 합니다.
연구진은 실험적 조사에서 STEERLM을 OpenAI ChatGPT 3.5, OpenAI text-davinci-003, Guanaco 65B와 같은 여러 고급 명령어 추종 모델과 비교했습니다. 또한 RLHF와 SFT 간의 차이를 강조하기 위해 얼라인먼트 목표에 SFT를 독점적으로 활용하는 OASST LLaMA 30B SFT를 통합했습니다.
STEERLM 43B는 자동 및 수동 평가에서 측정한 성능 측면에서 모든 기본 라인 모델을 능가하는 것으로 나타났습니다. 생성된 출력은 인간과 기계 평가자 모두 인간 피드백 강화 학습(RLHF)을 사용하여 훈련된 다양한 고급 기준선보다 선호도가 높으며, 동시에 최적의 결과를 얻기 위해 덜 광범위한 훈련 시간이 필요한 것으로 나타났습니다.
우리 팀의 연구 목표는 모델 정렬을 위한 간단하면서도 강력한 전략에 대한 추가 탐구와 발전을 촉진하여 모든 개인이 이용할 수 있는 우수한 인공지능 동반자를 생성하는 것입니다.
huggingface 에서 STEERLM 사용해보기 . 논문 arXiv 의 SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF.