Contents

이 AI 백서는 인간 피드백을 통한 강화 학습(RLHF)의 근본적인 측면을 탐구합니다: 그 메커니즘과 한계를 명확히 하기 위한 목표

Contents

단순한 언어 작업을 넘어 여러 산업 분야에 광범위하게 적용 가능한 대규모 언어 모델(LLM)은 기술, 의료, 금융, 교육 등의 분야에서 중추적인 역할을 하며, 이러한 중요한 영역에서 기존 워크플로우를 혁신할 수 있는 잠재력을 가지고 있습니다. LLM이 신뢰할 수 있고 신뢰할 수 있으며 인간과 유사한 특성을 갖도록 하기 위해 인간 피드백을 통한 강화 학습(RLHF)이라는 기법이 사용되었습니다. 후자는 시연 중에 관찰된 선호 행동 패턴에 대한 사람의 의견을 활용하여 로봇의 동작 시뮬레이션, 아타리 비디오 게임 마스터 등 강화 학습(RL) 과제를 해결할 수 있는 능력으로 인해 각광을 받았습니다. 이 접근 방식은 종종

고급 대규모 언어 모델(LLM)이 복잡한 문제를 해결하는 데 중요한 역할을 합니다. 하지만 이러한 모델이 개인 비서로 효과적으로 기능할 수 있는 능력을 갖추려면 신중한 검토가 필요합니다. 사람의 입력을 활용하여 개인의 선호도에 따라 모델을 수정하는 강화 학습(RLHF) 전략을 활용하면 독성 및 잘못된 정보와 같은 잠재적인 문제를 완화할 수 있습니다. 그럼에도 불구하고 RLHF를 이해하는 것은 이를 대중화시킨 최초의 설계 결정으로 인해 여전히 상당히 복잡합니다. 이 백서에서는 프레임워크의 기본 구조를 개편하는 대신 이러한 선택 사항을 개선하는 데 주로 초점을 맞추고 있습니다.

매사추세츠 대학교, IIT 델리, 프린스턴 대학교, 조지아 공과대학교, 앨런 인공지능 연구소의 연구진이 공동으로 숨겨진 피드백을 이용한 강화 학습(RLHF)의 기본 요소를 조사하여 이를 완전히 이해하기 위해 노력했습니다. 베이지안 원칙에 기반한 확률론적 관점을 채택하여 이 방법의 아키텍처에 대한 필수적인 질문을 설계하고 보상 기능의 중요성을 강조했습니다. 이 함수는 RLHF 프로세스의 초석 역할을 하며, 그 추정은 몇 가지 기본 가정에 따라 달라집니다. 이 연구자들은 조사를 통해 오라클과 같은 보상을 확립했으며, 이는 향후 노력에 대한 이론적 벤치마크 역할을 합니다.

인간 친화적인 인공 지능 시스템에서 강화 학습을 활용하는 주요 목표는 인간의 피드백을 최적화된 정교한 보상 시스템으로 전환하는 것입니다. 이러한 보상 시스템은 두 가지 중요한 목적을 수행하는데, 첫째는 인공지능의 행동과 인간이 의도한 목표 간의 일치성을 정량화하고 촉진하는 데 필요한 관련 데이터를 캡슐화하는 것입니다.둘째, 이러한 보상 시스템을 통해 강화 학습 알고리즘은 가능한 가장 높은 총 보상을 산출하는 언어 모델 정책을 개발하는 방법에 대한 지식을 습득하여 언어 모델이 사용자의 욕구에 부합하도록 보장할 수 있습니다. 이 문서에는 이 작업을 수행하는 두 가지 접근 방식이 설명되어 있습니다.

가치 기반 방법은 특정 정책으로 인해 예상되는 누적 보상을 기반으로 상태의 가치를 획득하는 데 집중합니다. 반면에 정책 점진적 기법은 보상 피드백을 활용하여 조정 가능한 정책을 개선하는 것입니다. 구체적으로 이 방법론은 예상 누적 보상을 최적화하기 위해 정책 매개변수에 대해 그라데이션 상승을 수행하는 것을 포함합니다.

이 연구 프로젝트에서 해결된 수많은 장애물에 대한 논의를 포함하여 실제 홀 채우기(RLHF) 방법에 대한 종합적인 검토는 다음과 같습니다:

/images/this-ai-paper-explores-the-fundamental-aspects-of-reinforcement-learning-from-human-feedback-rlhf-aiming-to-clarify-its-mechanisms-and-limitations.png

연구자들은 학습된 보상 모델을 통합하여 언어 모델(LM)에 대한 강화 학습(RLHF) 방법론을 개선했습니다. 연구진은 근사 정책 최적화(PPO)와 장점 행위자-비판(A2C) 알고리즘을 모두 사용하여 LM의 매개변수를 조정하고, 생성된 결과물을 통해 보상을 최적화하는 것을 목표로 삼았습니다. 정책-구배 접근법이라고 하는 이러한 방법은 평가 보상 피드백을 기반으로 정책 매개변수를 업데이트합니다. 훈련 절차에는 특정 데이터 세트에서 파생된 문맥 정보가 제공되는 사전 훈련된 언어 모델 또는 서마 포레스트 트레이너(SFT) 기반 언어 모델이 포함됩니다. 하지만 이 데이터 세트는 SFT 단계에서 인간 데모를 얻기 위해 사용된 데이터 세트와 다를 수 있다는 점에 유의해야 합니다.

요약하면, 본 연구에서는 인간 피드백을 통한 강화 학습(RLHF)의 기본 원리와 제약을 밝히기 위해 그 필수 구성 요소를 심층적으로 분석했습니다. 연구자들은 RLHF의 핵심을 이루는 보상 모델을 비판적으로 검토하고 다양한 설계 대안의 함의를 조명했습니다. 본 연구는 이러한 보상 기능을 획득하는 과정에서 직면한 장애물을 다루며 RLHF의 실용적, 이론적 단점을 모두 드러냅니다. 또한 피드백의 특성, 훈련 알고리즘의 복잡성, 강화 학습에 의존하지 않고도 정렬을 달성할 수 있는 대안적 접근 방식과 같은 추가적인 측면을 탐구합니다.

백서를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들을 위해 저희 뉴스레터를 구독해 주시기 바랍니다. 뉴스레터는 여러분에게 큰 관심을 가질 만한 최신 노력과 업데이트에 대한 정보를 제공하는 훌륭한 리소스입니다.

4만 명 이상의 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

존경받는 조직과 협력하여 인공 지능에 관심이 있는 150만 명의 방대한 청중에게 다가갈 수 있습니다. 저희 팀은 여러분과 협력하여 이 기회를 실현하고자 합니다.

Google, NVIDIA, Meta, Stanford, MIT, Microsoft 등 저명한 기관의 주요 연구자들이 구독하는 빠르게 확장 중인 뉴스레터를 구독하세요.