Contents

엔비디아 AI 리서치, 헬프스티어 출시: 37,000개의 샘플이 포함된 STEERLM을 위한 다중 속성 유용성 선호도 데이터 세트

Contents

빠르게 발전하는 인공지능(AI)과 머신러닝(ML)의 영역에 비추어 볼 때, 인간의 성향에 완벽하게 부합하는 지능형 시스템을 만드는 것이 필수적입니다. 이러한 개념은 마치 사람이 말하는 것처럼 텍스트를 생성하고 질의에 응답함으로써 인간의 성향을 모방하려는 대규모 언어 모델(LLM)의 등장으로 더욱 확대되었습니다. 그 결과, LLM은 AI 영역에서 폭넓은 호평을 받고 있습니다.

SteerLM은 감독형 미세 조정에 대한 혁신적인 접근 방식으로, 인간 피드백을 통한 강화 학습(RLHF)과 같은 기존 기법보다 추론 중 모델 출력을 더 잘 제어할 수 있습니다. 명시적으로 정의된 다차원 속성 세트를 활용함으로써 사용자는 도움 정도를 포함해 미리 정해진 기준을 준수하는 응답을 생성하도록 AI를 안내하는 동시에 특정 요구 사항에 따라 맞춤 설정할 수 있습니다.

유익한 성향에 기반한 언어 프레임워크 모델링에 사용되는 현재의 오픈 소스 데이터 세트에서는 유익하지 않은 응답과 효과적인 응답을 구분하는 것이 명확하지 않습니다. 따라서 이러한 리포지토리를 기반으로 구축된 AI 시스템은 유용성이 떨어짐에도 불구하고 긴 답변에 불균형적인 중요성을 부여하는 등 무의식적으로 특정 특성을 내면화할 수 있습니다.

이 문제를 해결하기 위해 NVIDIA의 연구원 그룹은 제공되는 지원의 효과에 영향을 미치는 다양한 요인을 파악하기 위해 설계된 포괄적인 컬렉션인 HELPSTEER라는 데이터 세트를 개발했습니다. 37,000개의 인스턴스로 구성된 이 데이터 세트에는 각 응답에 대한 전반적인 유용성 평가 외에도 장황함, 일관성, 정확성, 복잡성 등의 요소에 대한 주석이 포함되어 있습니다. 이러한 속성을 고려함으로써 이 데이터 세트는 메시지 길이를 기준으로 한 단순한 측정에만 의존하지 않고 진정으로 가치 있는 지원 응답을 정의하는 자질에 대한 보다 세분화된 관점을 제공합니다.

연구원들은 제공된 데이터 세트에 대해 언어 모델을 효과적으로 학습시키기 위해 STEERLM 방법론과 함께 Llama 2 70B 아키텍처를 활용했습니다. 특히 이 모델은 GPT-4와 같은 고급 모델의 추가 학습 데이터에 의존하지 않고도 MT 벤치 벤치마크에서 7.54점이라는 인상적인 점수를 획득하며 동급의 모든 대체 모델을 능가했습니다. 이 결과는 언어 모델 성능을 향상시키고 다른 데이터 세트의 단점을 극복하는 데 있어 HELPSTEER 데이터 세트의 효율성을 입증합니다.

HELPSTEER 데이터 세트는 국제 크리에이티브 커먼즈 저작자표시 4.0 라이선스에 따라 사용할 수 있도록 팀에 의해 제공되었습니다.이 공개 데이터 세트는 언어 연구자와 개발자가 유용성 선호도 중심의 언어 모델을 지속적으로 개발하고 테스트하는 데 사용할 수 있습니다. 이 데이터 세트는 https://huggingface.co/datasets/nvidia/HelpSteer 에서 허깅페이스에 액세스할 수 있습니다.

연구팀은 주목할 만한 성과를 다음과 같은 요약 형식으로 간결하게 정리했습니다.

정확성, 응집력, 복잡성, 간결성, 일반적 유용성에 관한 세심한 주석이 달린 답변으로 구성된 포괄적인 지원 데이터베이스가 3만 7천 개의 샘플을 포괄하는 형태로 만들어졌습니다. 이 말뭉치를 활용하여 라마 2 70B라고 불리는 고급 언어 모델을 능숙하게 미세 조정하여 최신 기계 번역 벤치마크에서 7.54점이라는 놀라운 점수로 탁월한 위치를 차지했습니다. 이 결과는 GPT4를 포함한 독점 데이터 활용을 기피하는 다른 경쟁사보다 월등히 우수한 결과입니다. 공동의 발전을 촉진하기 위한 노력의 일환으로, 저희는 이 방대한 데이터 세트를 크리에이티브 커먼즈 저작자표시 4.0 국제 라이선스(CC

)에 따라 공개하는 데 동의했습니다. 요약하자면, HELPSTEER 데이터 세트는 현재 오픈 소스 데이터 세트에서 주목할 만한 부재를 해결하는 데 중요한 기여를 하고 있다는 것을 의미합니다. 이 데이터 세트는 정확성, 균일성, 복잡성, 명료성 등의 품질에 우선순위를 두어 언어 모델을 훈련하는 데 효과적이며, 그 결과 성능이 향상되는 것으로 나타났습니다.

논문 데이터 세트 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한, 최신 AI 연구 소식과 멋진 AI 프로젝트 등을 공유하는 33k\\+ ML 서브레딧, 41k\\+ 페이스북 커뮤니티, 디스코드 채널, 이메일 뉴스레터에 가입하는 것을 잊지 마세요.

저희의 노력에 감사하는 분들을 위한 뉴스레터 구독은 여러분의 관심을 더욱 불러일으킬 수 있는 최신 노력과 업데이트에 대한 정보를 얻을 수 있는 훌륭한 플랫폼이 될 것입니다.

시각 및 청각 인식 기능을 갖춘 언어 모델 개발을 위한 종합 가이드