OSWorld를 만나보세요: 실제 컴퓨터 환경을 통한 자율 에이전트 개발의 혁신
사용자의 큰 개입 없이도 다양한 소프트웨어 프로그램과 운영 체제를 원활하게 조작할 수 있는 지능형 디지털 보조 도구를 상상해 보세요. 이 혁신적인 개념은 효율성과 포용성을 향상시켜 디지털 세계에서 일하고 상호 작용하는 방식을 변화시킬 잠재력을 가지고 있습니다. 그럼에도 불구하고 현재 이러한 자율 운영체를 평가하는 데 사용되는 방법은 특정 사용 사례로 제한되거나 포괄적인 상호 작용 시나리오를 제공하지 못하기 때문에 불충분합니다. 다행히도 최근 이 문제가 해결되었습니다.
이 작업에서는 고도로 유능한 디지털 엔터티의 생성을 발전시키기 위한 혁신적인 프레임워크인 OSWorld를 소개합니다. 전문가 그룹이 설계한 OSWorld는 동급 최고의 선구적인 솔루션으로 Linux, Windows, macOS 등 다양한 플랫폼에서 멀티 모달 에이전트를 테스트하는 데 적합한 확장 가능한 진정한 컴퓨팅 환경을 제공합니다.
OSWorld는 작업의 설정, 평가 및 반복적인 진행을 용이하게 하는 포괄적이고 관리하기 쉬운 플랫폼을 제공함으로써 차별화됩니다. 상담원은 마우스와 키보드 입력을 통해 자유롭게 상호 작용할 수 있으며, 인간 작업자의 작업을 미러링하여 호스트 시스템에 있는 모든 소프트웨어 프로그램에 액세스하고 상호 작용할 수 있습니다. 과거의 제한적이고 제한된 환경과 달리 이 접근 방식은 수행할 수 있는 작업의 잠재적 범위를 넓혀줍니다.
연구팀은 OSWorld의 기능을 입증하기 위해 웹 브라우징에서 프로그래밍 환경에 이르기까지 369개의 다양한 실제 컴퓨팅 활동을 포괄하는 종합적인 벤치마크를 작성했습니다. 각 활동에 대해 자세한 텍스트 지침, 예비 설정 구성, 일관되고 안정적인 성능 평가를 위한 맞춤형 스크립트를 포함한 철저한 주석이 제공됩니다.
이 테스트를 통해 GPT-4V, Gemini-Pro, Claude-3 Opus를 비롯한 최신 언어 모델의 성능을 평가했습니다. 놀랍게도 이러한 모델들은 고급 기능에도 불구하고 평균 성공률이 12.24%에 불과했습니다. 이 결과는 GUI 접지를 수행하고, 적절한 운영 지식을 보유하고, 장기 목표를 효과적으로 계획하는 능력에 한계가 있음을 보여줍니다.
초기 결과는 실망스러울 수 있지만 발전의 희망이 있습니다.연구자들은 그래픽 사용자 인터페이스와 상호작용하는 시각 언어 모델의 능력 향상, 탐색, 기억 유지 및 성찰을 장려하는 에이전트 아키텍처 설계, 보다 실제적인 환경에서 안전 문제 해결, 인공지능 개발의 발전을 촉진하기 위해 사용 가능한 데이터 및 시나리오의 범위 확대 등 몇 가지 유망한 조사 방법을 찾아냈습니다.
OSWorld는 실용적이고 확장 가능한 평가 환경과 인간과 유사한 컴퓨터 작업 촉진을 목표로 하는 선구적인 조사를 가능하게 하는 포괄적인 테스트 스위트를 제공하므로 자율 디지털 비서 개발에서 중요한 시점을 의미합니다. 혁신적인 접근 방식을 통해 컴퓨터와 인간 간의 원활하고 분별력 있는 의사소통의 가능성은 점점 더 가까워지고 있으며, OSWorld는 이러한 노력의 선구자 역할을 하고 있습니다.
논문 및 프로젝트 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들께는 최신 노력에 대한 귀중한 인사이트와 업데이트를 독점적으로 제공하는 훌륭한 플랫폼인 뉴스레터 구독을 진심으로 초대합니다.
40,000명 이상의 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 되는 것을 잊지 마세요.
존경받는 조직과 협력하여 인공 지능에 관심이 있는 150만 명 이상의 방대한 잠재고객을 확보하세요. 저희 팀은 프로세스 전반에 걸쳐 탁월한 서비스와 지원을 제공하여 생산적이고 즐거운 경험이 될 수 있도록 최선을 다하고 있습니다.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 및 기타 여러 유명 기관의 저명한 전문가들이 열독하는 활발한 AI 연구 뉴스레터를 구독하세요.