Contents

새로운 오픈 웨이트 AI 코딩 모델이 독점 옵션을 위협하고 있다.

Contents

화요일, 프랑스 AI 스타트업 미스트랄 AI(Mistral AI)는 발표했습니다 1230억 개의 파라미터를 가진 오픈 웨이트 코딩 모델인 Devstral 2를 발표했습니다. 이 모델은 자율 소프트웨어 엔지니어링 에이전트의 일부로 작동하도록 설계되었습니다. 이 모델은 GitHub 이슈 해결 능력 테스트를 시도하는 벤치마크인 SWE-bench Verified에서 72.2%의 점수를 달성하여 최고 성능의 오픈 웨이트 모델 중 하나로 평가받고 있습니다.

아마도 더욱 주목할만한 점은 미스트랄 AI가 AI 모델뿐만 아니라 Mistral Vibe라는 새로운 개발 앱을 발표했다는 것입니다. 이는 Claude Code, OpenAI Codex 및 Gemini CLI와 유사한 명령 줄 인터페이스(CLI)로 개발자가 터미널에서 직접 Devstral 모델과 상호 작용할 수 있도록 합니다. 이 도구는 파일 구조 및 Git 상태를 스캔하여 전체 프로젝트의 맥락을 유지하고 여러 파일에 걸쳐 변경 사항을 적용하며 셸 명령을 자율적으로 실행할 수 있습니다. 미스트랄 AI는 이 CLI를 Apache 2.0 라이선스에 따라 공개했습니다.

AI 벤치마크는 항상 회의적인 시각으로 봐야 하지만, 주요 AI 기업 직원들과의 이야기를 통해 SWE-bench Verified의 성능에 매우 주의를 기울이고 있다는 것을 알게 되었습니다. SWE-bench Verified는 인기 있는 Python 리포지토리의 GitHub 이슈에서 가져온 500개의 실제 소프트웨어 엔지니어링 문제를 AI 모델에 제시합니다. AI는 이슈 설명을 읽고 코드를 탐색하여 유닛 테스트를 통과하는 작동 패치를 생성해야 합니다. 일부 AI 연구자들은 지적했습니다 이 벤치마크의 작업 중 약 90%가 경험이 풍부한 엔지니어가 한 시간 이내에 완료할 수 있는 비교적 간단한 버그 수정 작업이라는 것을, 하지만 코딩 모델을 비교할 수 있는 몇 안 되는 표준화된 방법 중 하나입니다.

동시에 더 큰 AI 코딩 모델과 함께 미스트랄 AI는 동일한 벤치마크에서 68%의 점수를 기록하고 인터넷 연결 없이도 노트북과 같은 소비자용 하드웨어에서 로컬로 실행할 수 있는 240억 개의 파라미터 버전인 Devstral Small 2 또한 공개했습니다. 두 모델 모두 256,000 토큰의 컨텍스트 윈도우를 지원하여 적당히 큰 코드베이스를 처리할 수 있습니다(물론 전체 프로젝트의 복잡성에 따라 크고 작음의 기준은 매우 상대적입니다). 이 회사는 Devstral 2를 수정된 MIT 라이선스에 따라, Devstral Small 2를 더 관대한 Apache 2.0 라이선스에 따라 공개했습니다.