이론에서 로봇 공학까지: 더 나은 제어를 위한 제곱합 최적화 적용하기
강화 학습은 해밀턴-자코비-벨만(HJB) 방정식의 해를 근사화하는 데 상당한 경험적 성과를 보여줌으로써 매우 동적인 제어 시스템을 만들어 냈습니다. 그럼에도 불구하고 이러한 제어기의 차선책 특성 또는 유한 샘플링 및 함수 근사기로 인한 근사화된 실제 이동 비용 함수의 정확도와 관련된 문제로 인해 이러한 기법의 광범위한 사용이 제한되고 있습니다.
이러한 점을 고려하여 이러한 확신을 제공할 수 있는 기법을 고안하는 데 관심이 집중되고 있습니다. 가치 함수의 하한을 설정하고, 해밀턴-자코비-벨만(HJB) 방정식의 제약을 완화하고, 유한 및 무한 지평선 동역학 시스템을 모두 고려하는 등 다양한 전략이 연구되었습니다.
매사추세츠 공과대학의 컴퓨터 과학 및 인공 지능 연구소의 학자들은 최근 연구에서 복잡한 비선형 시스템의 제한된 영역에서 가치 함수의 하한과 상한 추정치를 모두 제공함으로써 이전 연구 결과를 확장했습니다. 이는 효율적인 해결이 가능한 볼록 최적화 기법, 특히 제곱합(SOS) 프로그래밍을 통해 정밀한 가치 함수 근사치를 고안함으로써 달성할 수 있습니다.
전역 근사치에 집중하는 수많은 선행 연구와 달리, 우리의 방법은 중요 영역 내에서 국소 근사치를 생성하는 지역적 접근 방식을 채택하여 특히 로봇 시스템이 덜 작동하는 경우 근사치의 정확성을 크게 향상시킵니다. 콤팩트한 하위 집합에 대해 제곱합(SOS) 조건을 사용하여 근사치의 충실도를 높이는 동시에 시스템 전체의 안정성을 유지할 수 있는 제어 입력의 범위를 확장합니다.
본 연구는 안정성뿐만 아니라 최적의 성능에 집중함으로써 제어 분야에서 활용되는 기존 기법과는 차별화됩니다. 일반적인 리아푸노프 또는 배리어 인증에 의존하는 방식에서 벗어나, 안정성과 최적화를 모두 달성하기 위해 SOS 기반 전략을 사용합니다. 국부 근사에 의존하지 않고 실제 로봇 동역학을 사용하고 최적성 요소를 통합함으로써 이러한 SOS 기반 컨트롤러는 이전 방법보다 더 넓은 상태 공간 영역에서 시스템 안정성을 유지할 수 있습니다. 이 혁신적인 기술은 비자율 시스템을 다룰 때 이전 접근 방식에서 일반적으로 요구되는 초기 컨트롤러를 국지적으로 안정화할 필요가 없다는 점을 언급할 가치가 있습니다.결과적으로 제약 조건 없이 가치 함수 근사치를 개발할 수 있어
이들의 연구는 제한된 영역에서 해밀턴-자코비-벨만(HJB) 방정식을 대략적으로 따르는 값을 계산할 때 현재의 방법보다 더 강력한 가치 함수 근사치를 추정하는 수치 표준을 발전시켰습니다. 이 연구는 또한 설계된 제어 정책이 최적의 기능을 발휘하는 영역뿐만 아니라 폐쇄 루프 시스템의 유인 영역 주변의 내부 경계를 계산하여 이러한 값 근사치의 국부적 효율성을 조사합니다.
결론적으로, 저자는 이산 및 연속 로봇 시스템에 모두 적용하여 제안한 방법론의 효과를 입증합니다. 그 결과 가치 함수의 과소 및 과대 추정과 해당 제어 정책이 각각의 상태 공간의 상당 부분에 걸쳐 이러한 시스템을 효과적으로 조절하는 능력과 잘 연관되어 있음을 밝혀냈습니다. 특히 접촉 역학을 통합한 하이브리드 시스템의 경우, 저자들은 과소 추정 공식을 성공적으로 사용했는데, 이는 전체 카트-폴 스윙업을 생성하고 까다로운 평면 밀기 작업을 수행하기 위해 제곱합(SOS) 기법에서 파생된 시간 불변 다항식 제어기를 사용한 초기 사례를 나타냅니다.
논문 및 코드 을 확인하세요. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희 서비스에 감사하는 분들께는 업계에서 최신 제품과 개발 동향에 대한 정보를 얻을 수 있는 훌륭한 수단인 뉴스레터를 구독해 주시기 바랍니다.
현재 39,000명이 넘는 회원 수를 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 및 기타 여러 저명한 기관의 해당 분야 전문가들이 열광적으로 구독하는 빠르게 확장되고 있는 AI 연구 뉴스레터를 구독하세요.