알리바바 연구원, 정책에 대한 보상 학습(RLP)을 제안하다: 정책 샘플을 사용하여 보상 모델을 개선하여 배포를 유지하는 비지도 AI 프레임워크
언어적으로 미묘한 의사소통을 이해하고 생성하는 인공지능 능력의 초석 역할을 하는 대규모 언어 모델은 인간의 담화를 복제하는 데 상당한 진전을 이루었습니다. 고객 지원 서비스 간소화부터 창의적인 콘텐츠 제작에 이르기까지 LLM의 잠재적 활용 범위는 매우 다양합니다. 그러나 이러한 모델을 인간의 성향을 정확하게 반영하도록 조정하여 적절한 환경 내에서 안전하고 효율적으로 작동하도록 보장하는 것은 여전히 어려운 과제입니다.
대규모 언어 모델(LLM)을 인간의 기대치에 맞추는 과정은 어려운 작업임이 입증되었습니다. 이러한 조율을 달성하기 위해서는 사람의 피드백을 수집하고, 이를 분석하여 모델의 보상 기준을 수정하고, 이러한 변화에 따라 모델을 최적화해야 합니다. 하지만 이러한 단계별 방법론은 LLM이 계속 발전함에 따라 보상 모델의 정확성을 유지하는 데 어려움을 겪어 모델의 결과와 사람의 선호도 사이에 불일치가 발생하고 있습니다.
대규모 언어 모델을 조화시키려는 시도는 주로 인간의 피드백에 기반한 강화 학습(RLHF)을 사용했습니다. 이 방법에는 반복적으로 인간의 선호도를 수집하고 보상 값을 설정하며 관련 정책을 개선하는 과정이 포함됩니다. RLHF는 LLM 정렬을 개선하는 데 효과적임이 입증되었지만, 본질적인 복잡성과 끊임없이 변화하는 LLM 데이터 분포의 특성으로 인해 복잡한 문제에 직면해 있습니다. 이러한 어려움으로 인해 보상 모델이 구식화되어 얼라인먼트 절차를 방해하고 모델의 기능과 보안이 저하될 수 있습니다.
알리바바의 연구원 그룹은 정책의 분포 샘플을 사용하여 보상 모델을 개선하기 위해 비지도 전략을 활용하는 RLP(Reward Learning on Policy)라는 새로운 방법론을 도입했습니다. 멀티뷰 학습 기법을 사용하여 강력한 표현을 생성하는 동시에 시간이 지나도 보상 모델의 정확성과 적용 가능성을 유지하기 위해 합성 선호도를 생성하는 것이 RLP입니다.
정책으로부터의 강화 학습(RLP)은 비지도 학습 방법론을 통합하여 기존의 인간 피드백으로부터의 강화 학습(RLHF) 패러다임을 발전시켰습니다. RLP는 정책 데이터를 활용하여 보상 함수를 지속적으로 개선함으로써 언어 모델의 계속 진화하는 결과와 동기화를 유지합니다. 이 선구적인 전략을 채택함으로써 정렬 절차가 최적화되고 보상 시스템이 인간의 선호도를 정확하게 포착하여 모델의 전반적인 성능이 크게 향상됩니다.
다양한 벤치마크 데이터 세트에 대한 종합적인 검토를 통해 RLP의 효율성이 입증되었으며, 기존 접근 방식보다 일관되게 우수한 성능을 보였습니다. 예를 들어, 알파카팜 데이터 세트에 적용했을 때 RLP 파생상품은 더 높은 승률을 기록했으며, 특히 RLP-SPG(합성 선호도 생성)는 기본 모델을 46.8%에서 50.2%로 개선하여 더 높은 승률을 달성했습니다. 이 실험적 증명은 대규모 언어 모델에 대한 정확하고 유연한 보상 메커니즘을 유지하는 데 있어 RLP의 잠재력을 강화합니다.
언어 모델(LLM)에 선호도 강화 학습(RLP)을 구현하면 사용자 선호도에 더 잘 부합하도록 모델을 조정함으로써 다양한 산업 분야에서 그 활용도를 확장할 수 있는 상당한 잠재력을 지니고 있습니다. 이 프로세스는 인공지능 시스템의 신뢰성과 잠재력을 강화할 뿐만 아니라 인공지능 기술 전반의 수준을 향상시키는 데에도 상당한 진전을 이룹니다.
요약하면, 알리바바 그룹의 RLP는 대규모 언어 모델을 인간의 가치와 통합하는 혁신적인 방법론을 나타냅니다. 이 접근 방식은 모델과 인간의 선호도 동기화를 달성하기 위한 세련되고 간소화된 강력한 수단을 제공함으로써 기존 RLHF 기술의 단점을 극복합니다. 또한 정책 업데이트에 따라 보상 메커니즘을 유연하게 조정할 수 있기 때문에 LLM이 인간의 가치를 지속적으로 유지하면서 점진적으로 성능을 개선할 수 있습니다.
논문 및 Github 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시기 바랍니다. 뉴스레터는 저희의 최신 노력과 업데이트에 대한 정보를 얻을 수 있는 훌륭한 수단이며, 소중한 고객들을 더욱 만족시킬 수 있을 것으로 믿습니다.
머신러닝 분야에서 39,000명 이상의 회원을 자랑하는 Reddit의 활발한 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
구글, 엔비디아, 메타, 스탠포드, MIT, 마이크로소프트 등 저명한 기관의 전문가들이 구독하는 활발한 AI 연구 뉴스레터를 구독하세요.