Contents

메타의 최신 오픈 가중치 AI 모델인 라마 3를 통해 LLM이 계속 도약하고 있습니다.

Contents

/images/llms-keep-leaping-with-llama-3-metas-newest-open-weights-ai-model.jpg

확대 게티 이미지 | 벤제이 에드워즈

목요일에 Meta는 텍스트 구성, 코드 생성 또는 챗봇에 사용할 수 있는 Llama 3 오픈 가중치 AI 모델의 초기 버전을 공개했습니다. 또한 메타 AI 어시스턴트 은 현재 웹 사이트 에서 사용할 수 있으며 주요 소셜 미디어 앱에 통합되어 OpenAI의 ChatGPT, 마이크로소프트의 코파일럿, 구글의 제미니와 같은 다른 AI 어시스턴트와 경쟁하기 위한 회사의 노력을 강화할 예정이라고 발표했습니다.

이전 버전인 라마 2와 마찬가지로 라마 3는 주요 AI 회사에서 무료로 제공되는 오픈 가중치 대규모 언어 모델(LLM)이라는 점에서 주목할 만합니다. Llama 3는 기술적으로 “오픈 소스"라는 용어가 소프트웨어에서 특정 의미 를 가지며(다른 보도에서 언급했듯이), 업계에서는 아직 제한이 있는 코드나 가중치를 제공하거나(Llama 3의 라이선스 은 여기에서 ) 학습 데이터를 제공하지 않고 제공하는 AI 모델 릴리스에 대한 용어를 확정하지 않았기 때문에 기술적으로는 ‘오픈 소스’로 볼 수 없습니다. 일반적으로 이러한 릴리스를 “오픈 웨이트"라고 부릅니다.

현재 Llama 3는 두 가지 파라미터 크기로 제공됩니다: 80억(8B)과 700억(70B)이며, 두 가지 모두 메타 웹사이트에서 가입을 통해 무료로 다운로드할 수 있습니다. 라마 3는 사전 학습된 버전(기본적으로 다음 토큰 예측 모델)과 명령어 조정 버전(사용자 지침을 따르도록 미세 조정)의 두 가지 버전으로 제공됩니다. 각 버전에는 8,192개의 토큰 컨텍스트 제한이 있습니다.

/images/meta_ai_website_screenshot_april_18_2024.png

2024년 4월 18일에 캡처한 이 스냅샷에서 메타 AI 어시스턴트 웹페이지의 매력적인 모습을 확인할 수 있습니다.

Meta는 두 모델을 맞춤형으로 구축된 두 개의 24,000-GPU 클러스터 에서 학습시켰습니다. 드와르케시 파텔 과의 팟캐스트 인터뷰에서 메타의 CEO 마크 저커버그는 약 15조 개의 토큰으로 70B 모델을 학습시켰다고 말했습니다. 그 과정에서 모델은 “포화 상태"에 도달하지 않았습니다(즉, 용량 증가 측면에서 벽에 부딪히지 않았습니다). 결국 메타는 이 작업을 중단하고 다른 모델을 훈련하는 것으로 넘어갔습니다.

돌이켜보면 더 가파른 개선 곡선을 예상했지만, 결론은 여전히 기울어져 있었습니다. 입력 데이터의 보강이 더 나은 결과를 가져왔을 가능성이 있습니다.“라고 팟캐스트에 출연한 마크 저커버그는 말했습니다.

Meta는 또한 현재 라마 3의 400B 파라미터 버전을 훈련 중이라고 발표했는데, Nvidia의 짐 팬과 같은 일부 전문가들은 MMLU , GPQA , HumanEval , MATH 과 같은 벤치마크에서 GPT-4 Turbo, Claude 3 Opus 및 Gemini Ultra와 동일한 리그 의 성능을 보일 수 있다고 생각합니다.

벤치마크를 논의할 때 대규모 언어 모델에 적용하는 것이 상당한 좌절의 원인이 될 수 있다는 점은 이전에 언급된 바 있습니다. 이는 훈련 데이터세트에 벤치마크 테스트 포함, 공급업체의 선택적 샘플링, 채팅 기반 시스템과의 상호 작용 시 인공지능의 광범위한 기능을 정확하게 반영하기 어려운 점 등 다양한 요인으로 인해 발생합니다.

그러나 예상대로 Meta는 MMLU (학부 수준의 지식), GSM-8K (초등학교 수학), HumanEval (코딩), GPQA (대학원 수준의 문제), MATH (수학 단어 문제)의 결과를 나열하는 Llama 3 벤치마크 몇 가지를 제공했습니다. 이는 8B 모델이 Google의 Gemma 7B 및 Mistral 7B Instruct와 같은 오픈 웨이트 모델에 비해 우수한 성능을 보였으며, 70B 모델도 Gemini Pro 1.5 및 Claude 3 Sonnet과 비교했을 때 우수한 성능을 보였습니다.

/images/llama3_benchmarks.png

확대 / Meta에서 제공한 인스트럭션 튜닝된 라마 3 8B 및 70B 벤치마크 차트입니다. 메타

메타는 라마 3 모델이 (라마 2와 마찬가지로) 코딩을 이해하는 기능이 향상되었으며, 현재 텍스트만 출력하지만 처음으로 이미지와 텍스트로 모두 학습되었다고 말합니다. Reuters 에 따르면 메타 최고 제품 책임자 크리스 콕스는 인터뷰에서 향후 업데이트될 라마 3에서는 멀티모달 출력, 즉 텍스트와 이미지를 모두 지원하는 더 복잡한 처리 능력(예: 다단계 계획 실행)이 추가될 예정이라고 언급했습니다.

Meta는 다양한 클라우드 인프라에 Llama 3 모델을 배포하여 Amazon Web Services(AWS), 데이터브릭스, 구글 클라우드 등 널리 사용되는 플랫폼을 통해 원활하게 액세스할 수 있도록 할 계획입니다.

또한 목요일에 Meta는 지난 9월에 처음 발표한 Meta AI 가상 비서의 새로운 기반이 될 Llama 3를 발표했습니다.이 어시스턴트는 페이스북, 인스타그램, 왓츠앱, 메신저, 그리고 앞서 언급한 전용 웹사이트 의 검색 기능에 눈에 띄게 표시되며, 동일한 인터페이스에서 이미지를 생성하는 기능 등 ChatGPT와 유사한 디자인이 특징입니다. 또한 실시간 검색 결과를 메타 AI 어시스턴트에 통합하기 위해 Google과 파트너십을 체결하여 기존 Microsoft의 Bing과의 파트너십에 추가했습니다.