포켓몬스터의 승리: 조지아 공대, 포켓몬 배틀에서 인간 수준의 기술을 습득한 최초의 LLM 요원 배출
자연어 처리 분야에서 생성형 인공지능과 대규모 언어 모델이 이룬 발전은 단순한 텍스트 이해를 훨씬 뛰어넘는 놀라운 성과입니다. 이러한 기술의 진화는 인공 일반 지능을 달성하기 위한 상당한 진전을 의미합니다. 게임, 특히 포켓몬 배틀 영역에서 인공지능의 능력의 정도를 측정하는 것은 전반적인 게임 플레이 능력을 평가할 수 있는 중요한 수단을 제공합니다.
“전술 전투 게임에서 인간과 동등한 수준의 성능을 발휘할 수 있는 대규모 언어 모델의 선구적인 구현"이라는 제목으로 조지아 공과대학 연구팀이 포켓몬 배틀을 포함한 전략적 게임 시나리오에서 인간과 경쟁할 수 있는 수준의 숙련도를 달성한 획기적인 인공지능 시스템인 PokéLLMon을 소개합니다.
이 백서의 주요 목적은 포켓몬 배틀 시나리오에서 인간 참가자가 사용하는 의사결정 전략을 모방하는 대규모 언어 모델(LLM) 내에 구현된 인공 지능(AI)을 만드는 것입니다. 저희 연구팀은 이러한 가상 대회에서 인간과 대결할 때 AI 시스템의 장점과 단점에 초점을 맞춰 AI 시스템의 성공에 중요한 다양한 요소를 면밀히 검토할 것입니다.
포크엘몬의 전체 프레임워크
연구진은 조사 작업을 시작하기 위해 구문 분석 및 번역 기능을 통해 전투 상황을 기록으로 변환할 수 있는 시스템을 구축합니다. 이 플랫폼은 PokéLLmon이라고 하는 대규모 언어 모델(LLM)이 포켓몬 배틀을 독립적으로 실행할 수 있게 해줍니다. 세 가지 기본 접근 방식을 포함하는 이 프레임워크는 다음과 같은 구성 요소로 이루어져 있습니다:
인컨텍스트 강화 학습은 반복을 통해 성능을 점진적으로 향상시키기 위해 상호작용에서 즉각적인 피드백을 얻는 것을 포함합니다. 지식 증강 생성기는 외부 정보를 통합하여 잘못된 정보에 대응하고 시기적절한 의사 결정을 내릴 수 있도록 지원합니다. 일관된 행동 생성을 구현함으로써 갑작스러운 변화나 불확실성으로 인한 대응 선택의 불일치 문제를 완화할 수 있습니다.
포켓몬 리파인드는 플레이를 반복할 때마다 과거의 행동과 관련 언어적 반응을 기반으로 미세 조정 프로세스를 사용합니다. 포켓몬의 강점과 약점, 이동 및 능력의 영향을 포함한 추가 데이터를 통합하여 현재 시나리오에 대한 이해도를 높입니다.인공지능 시스템은 다양한 전략을 자율적으로 생성한 후 가장 일관성 있게 실행할 수 있는 전략을 선택합니다.
연구자들은 연쇄 사고 능력을 가진 개체가 어려운 적과 맞닥뜨렸을 때 어려움을 겪는다는 사실을 관찰했습니다. 이러한 우려를 완화하기 위해 일관된 행동 생산을 구현할 수 있습니다. 사다리 경쟁에서 49%의 승률과 초대 기반 만남에서 56%의 놀라운 성공률을 기록한 것에서 알 수 있듯이, 온라인 콘테스트 참여는 포켓몬이 보여준 인간적인 전투 능력에 대한 주목할 만한 능력을 보여줍니다.
연구원들은 다양한 게임 환경에서 구현된 에이전트를 개발할 수 있는 유연성을 보여주며 PokéLLMon의 아키텍처의 다재다능함을 강조했습니다. 또한, 이 모델은 환각이나 행동 불일치 등의 문제를 효과적으로 해결하여 현재 연구팀이 파악한 바에 따르면 전략적 게임 시나리오에서 인간 수준의 숙련도를 보여주는 최초의 LLM 기반 에이전트가 되었습니다.
구현 및 플레이 가능한 배틀 로그는 프로젝트의 GitHub 에서 확인할 수 있습니다. 논문 PokéLLMon: 대규모 언어 모델을 사용한 포켓몬 배틀을 위한 인간-패리티 에이전트 arXiv .