Contents

CRADLE로 일반 컴퓨터 제어의 잠재력 활용하기: 디지털 과제를 해결해 나가기

Contents

인공 일반 지능(AGI)을 달성하기 위해 기초 에이전트는 복잡한 상황과 작업을 관리하기 위한 대규모 다중 모드 모델(LMM)과 정교한 도구를 활용하여 잠재력을 입증해 왔습니다. 그럼에도 불구하고 이러한 에이전트는 관찰된 현상과 각기 다른 상황에서 필요한 조치 간의 상당한 불일치로 인해 다양한 맥락에서 지식을 추론하는 데 종종 어려움을 겪습니다. 이 문제를 극복하기 위해 연구자들은 일반 컴퓨터 제어(GCC) 프레임워크를 대안으로 사용할 것을 제안합니다. GCC는 스크린샷이나 오디오 입력에서 파생된 시각적 단서를 사용하여 키 입력과 커서 움직임으로 변환함으로써 인간과 컴퓨터의 상호작용을 재현하려고 노력합니다. 하지만 멀티모달 데이터를 탐색하려면 키보드와 마우스와 같은 입력 장치를 제어하는 데 높은 수준의 정밀도가 필요하며, 장기 기억과 합리적인 의사 결정을 포함한 광범위한 인지 자원이 필요하기 때문에 몇 가지 장애물을 극복해야 합니다. 또한 이 과정은 지속적인 개선과 개발을 위한 효과적인 탐구 행동을 촉진합니다.

크래들 프레임워크는 당면한 문제를 해결하기 위한 혁신적인 접근 방식을 제시합니다. 데이터 수집, 성찰, 과제 추론, 역량 관리, 목표 수립, 기억 유지를 위해 설계된 6가지 주요 구성 요소로 구성된 이 프레임워크는 디지털 환경을 이해하고 상호 작용하는 데 있어 독특한 관점을 제공합니다. 그림 3과 4에 예시된 까다로운 AAA 게임인 레드 데드 리뎀션 II에 구현된 사례에서 볼 수 있듯이, 크래들은 게임의 기본 원리에 대한 구체적인 이해가 부족하더라도 고도로 복잡한 가상 영역을 탐색, 흡수, 실행할 수 있는 역량을 입증했습니다.

CRADLE의 정보 수집 모듈은 고급 이미지 처리 기술을 사용하여 텍스트 및 그래픽 요소를 포함한 화면 캡처에서 관련 세부 정보를 추출함으로써 시스템이 현재 상황을 파악하고 적절한 전략을 수립할 수 있도록 합니다. 특히 기술 및 액션 생성 구성 요소는 지시 단서를 식별 가능한 키 입력과 커서 움직임으로 변환하여 크래들과 비디오 게임 환경 간의 원활한 상호 작용을 촉진하는 것이 장점입니다. 그런 다음 추론 모듈은 이러한 동작의 결과를 평가하고 축적된 지식과 이전 경험에 따라 후속 조작을 고안하여 이러한 상호 작용을 미세 조정합니다.

/images/unlocking-the-potential-of-general-computer-control-with-cradle-steering-through-digital-challenges.png

레드 데드 리뎀션 2에서 크래들의 성능을 평가한 결과, 기존 정보에 크게 의존하지 않고 다양한 작업을 효과적으로 수행하는 능력이 입증되어 일반화된 조건부 교육과정 학습(GCC)을 달성하는 데 중요한 이정표가 될 것으로 예상됩니다. 그럼에도 불구하고 이 연구는 공간 이해력, 기호 해석, 역사 인식과 관련된 특정 제약을 노출하여 개선해야 할 잠재적 영역을 강조했습니다. 이러한 장애물에도 불구하고 CRADLE의 전반적인 실행은 복잡한 비디오 게임 내에서 실제 과제를 수행할 때 대규모 모델 몬테카를로 트리 검색(LMM) 기반 에이전트의 실행 가능성을 검증하여 다양한 작업을 제어할 수 있는 보다 적응력 있고 강력한 인공 지능 시스템 개발을 촉진할 수 있는 귀중한 통찰력을 제공했습니다.

크래들은 걸프협력회의(GCC) 지역 내 인공일반지능(AGI)에 대한 탐구에서 상당한 도약을 이룰 것으로 기대됩니다. 적응하고, 지식을 습득하고, 광범위한 계산 작업을 처리하는 이 시스템의 능력은 디지털 영역에서 손쉽게 탐색하고 수행할 수 있는 디지털 에이전트의 새로운 시대를 예고합니다. 크래들에서 계획 중인 개선 사항에는 기능 확장, 다중 모드 입력 처리 기능 강화, 의사 결정 메커니즘 간소화 등이 포함되며, 이는 AGI 개발과 디지털 인간-컴퓨터 상호작용에 대한 우리의 관점을 근본적으로 변화시킬 수 있습니다.

논문 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 Gr up 에 가입하세요.

저희의 노력에 감사하는 분들께는 여러분의 관심을 불러일으킬 만한 최신 노력과 업데이트에 대한 정보를 얻을 수 있는 훌륭한 플랫폼인 뉴스레터 구독을 진심으로 권해드립니다.

38k\\+ ML 서브 레딧

구글, NVIDIA, 메타, 스탠포드 대학교, 매사추세츠 공과대학(MIT), 마이크로소프트 등 업계 최고 리더들 사이에서 빠르게 인기를 얻고 있는 인공 지능 연구 뉴스레터를 구독하는 것을 잊지 마세요.