Contents

옥스퍼드 연구진이 정책 기반 확산을 발표했습니다: 오프라인 강화 학습 RL에서 합성 궤적의 제어 가능한 생성을 위한 기계 학습 방법

Contents

강화 학습(RL)은 불충분한 샘플에 의존하기 때문에 실제 시나리오에서 실제 적용을 방해하는 몇 가지 장애물에 직면해 있습니다. 일반적으로 RL 기법은 특히 위험 회피형 탐색이 필요할 때 어려움을 겪습니다. 하지만 오프라인 RL은 추가 정보를 수집하지 않고도 이전에 수집한 데이터를 활용하여 정책을 미세 조정할 수 있습니다. 그럼에도 불구하고 의도한 정책과 액세스 가능한 데이터 간의 차이로 인해 표본에서 벗어난 곤경에 처하게 됩니다. 이러한 불일치는 과대평가 편향으로 이어져 목표 정책을 지나치게 긍정적으로 예측할 수 있습니다. 따라서 오프라인 RL 접근법의 성공적인 배포를 위해서는 이러한 분포 불균형을 해결하는 것이 필수적입니다.

이전 연구에서는 정책 행동에 대한 명시적 또는 암묵적 규제를 통해 분배 이동 문제를 해결해 왔습니다. 대안적인 전략은 오프라인 데이터 세트를 사용하여 한 단계 세계 모델을 학습하여 목표 정책에 대한 궤적을 생성함으로써 분포 변화를 완화하는 것입니다. 하지만 이 접근 방식은 세계 모델 내에서 일반화 문제를 일으킬 수 있으며, 강화 학습 정책에서 과대평가된 값 문제를 더욱 악화시킬 수 있습니다.

옥스퍼드 연구진은 개별 단계 대신 완전한 궤적을 모델링하여 오프라인 강화 학습(RL)의 누적된 오류 문제를 해결하는 접근 방식인 정책 유도 확산(PGD)을 제안합니다. 오프라인 데이터 세트를 사용하여 확산 모델을 훈련함으로써 PGD는 행동 정책에 따라 인공 궤적을 생성합니다. 정렬 프로세스에는 목표 정책의 지침을 적용하여 샘플링 분포를 조정하는 과정이 포함되며, 그 결과 행동 정책의 편차를 최소화하면서 일반화 오류를 제한하는 행동적으로 정규화된 목표 분포가 생성됩니다.

/images/researchers-at-oxford-presented-policy-guided-diffusion-a-machine-learning-method-for-controllable-generation-of-synthetic-trajectories-in-offline-reinforcement-learning-rl.png

확률적 생성 확산(PGD)은 오프라인 데이터 세트에서 사전 학습된 궤적 수준의 확산 모델을 사용하여 목표 행동의 확률 분포를 추정합니다. 분류자 유도 확산의 개념을 기반으로 하는 PGD는 각 반복마다 대상 정책의 피드백을 통합하여 확산 프로세스를 안내하고 원하는 행동 분포로 유도합니다. 결과적으로 이 접근 방식은 각각의 행동 확률과 관련하여 두 정책 간에 균형 잡힌 목표 분포를 생성합니다. 특히, PGD는 가이드를 위해 행동 정책의 정보에 의존하지 않고 목표 정책의 입력만 활용합니다.사용자는 안내 계수를 조정함으로써 목표 분포에 적용되는 정규화 정도를 제어하여 행동 분포에 대한 근접성에 영향을 줄 수 있습니다

조사 연구 결과 몇 가지 주목할 만한 발견을 얻었으며, 이를 다음과 같이 요약할 수 있습니다:

요약하면, 합성 경험을 사용하여 훈련된 확률적 목표 기반(PGD) 에이전트는 비정형 합성 데이터 또는 원시 오프라인 데이터 세트로 훈련된 에이전트에 비해 우수한 성능을 보였습니다. PGD의 효과는 안내 계수의 세심한 조정을 통해 달성되며, 이를 통해 다양한 목표 정책에서 높은 확률의 궤적을 쉽게 선택할 수 있습니다. 또한 PGD는 가능성이 높은 행동을 선택하더라도 낮은 동역학 오류를 유지하여 PETS와 같은 자동 회귀 모델의 성능을 능가합니다. 또한, 합성 데이터의 주기적 생성은 훈련 중 연속 생성보다 더 효과적인 것으로 나타났는데, 이는 특히 훈련의 시작 단계에서 지침을 통합할 때 학습 과정의 안정성이 증가하기 때문인 것으로 보입니다. 이러한 연구 결과를 종합해 볼 때 PGD는

옥스퍼드 연구팀은 오프라인 강화 학습에서 제어 궤적을 생성하는 데 효과적인 기법인 확률론적 유도 하강(PGD)을 제시했습니다. 궤적을 직접 모델링하고 정책 지침을 활용함으로써 PGD는 PETS와 같은 자동 회귀 접근 방식과 비슷한 성능을 보여주면서도 동역학 오류는 줄였습니다. 이 방법은 다양한 환경과 행동에 걸쳐 에이전트 성능을 일관되게 개선하는 것으로 관찰되었습니다. 또한 표본 외 문제를 해결하여 오프라인 RL에서 보다 대담한 알고리즘을 사용할 수 있는 기회를 열어주며, 향후 개선 가능성이 있습니다.

논문을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들께는 최신 노력과 업데이트에 대한 정보를 제공하는 훌륭한 플랫폼 역할을 하는 뉴스레터 구독을 진심으로 권해드립니다.

40,000명 이상의 회원을 보유한 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 되는 것을 잊지 마세요.

인공 지능에 관심이 있는 150만 명 이상의 방대한 잠재 고객에게 다가가기 위한 노력의 일환으로, 저희 팀과 협업해 보시기 바랍니다.

인공지능 분야의 최첨단 지식을 추구하는 구글, NVIDIA, 메타, 스탠포드 대학교, 매사추세츠 공과대학, 마이크로소프트 등 유명 기관의 저명한 전문가들이 열독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.