메타 AI의 라마 2: 상업적 권리를 가진 오픈소스 LLM이 산업을 재편하다
대규모 언어 모델(LLM)의 활용은 복잡한 인지 연산을 처리하는 데 있어 놀라운 숙련도를 보여주며 현대 딥러닝의 영역에서 필수적인 요소가 되었습니다. 사용자 친화적인 채팅 인터페이스를 통해 인간 사용자와 소통할 수 있는 이러한 모델의 능력 덕분에 다양한 인구 통계에 걸쳐 대화형 에이전트로 광범위하게 배포되고 있습니다.
현재의 수많은 언어 모델(LLM)은 인간의 선호도에 맞게 조정하기 위해 광범위하게 미세 조정해야 하는데, 이 과정은 계산 비용이 많이 들고 상당한 수작업이 필요하기 때문에 AI 조정과 관련된 연구의 발전을 저해하는 또 다른 장애물이 존재합니다. 이 과정에서 투명성과 재현성이 부족하다는 점은 이 분야의 발전에 큰 걸림돌이 되고 있습니다.
메타 AI의 학제 간 학자 그룹은 “Llama 2"라는 오픈 소스 프로젝트와 “Llama 2-Chat"이라는 채팅 변형을 출시하여 이러한 어려움을 해결하기 위해 노력했습니다. 이 컬렉션은 사전 학습된 언어 모델과 미세 조정된 언어 모델로 구성되어 있습니다. 또한 채팅 모델은 대화형 작업에 최적화되어 있습니다. 이러한 모델은 상업적 사용이 가능한 오픈 소스 라이선스에 따라 제공되므로 투명성 측면에서 상당한 진전을 이루고 책임감 있고 재현 가능한 언어 모델의 성장을 장려합니다.
앞서 언급한 두 가지 모델인 Llama 2와 Llama 2-Chat은 7B, 13B, 70B 매개변수와 같은 다양한 변형으로 사용할 수 있습니다. 이러한 모델을 훈련하기 전에 팀은 특정 수정 사항을 통합하여 미세 조정된 고급 트랜스포머 아키텍처를 활용했습니다. 이러한 개선 사항에는 보다 엄격한 데이터 정리 기법, 데이터 혼합 업데이트, 학습 데이터의 양 40% 증가, 컨텍스트 길이 확장, 확장성 향상을 위한 추론 중 그룹화된 쿼리 주의(GQA) 사용 구현이 포함됩니다.
Llama 2의 학습 데이터 세트는 공개적으로 액세스 가능한 자료로 구성되어 있으며 Meta의 제품이나 서비스와 관련된 정보는 포함되지 않습니다. Llama 2는 기존의 Transformer 프레임워크, RMSNorm을 통한 사전 정규화, SwiGLU 활성화 기능, 회전 위치 임베딩 등 Llama 1에서 활용된 사전 훈련 구성 및 아키텍처 설계의 대부분을 사용합니다.
메타에서 사용하는 알고리즘은 β\_1이 0.9, β\_2가 0.95, 엡실론 값이 10^-5인 AdamW 옵티마이저를 사용합니다.또한 2000단계의 워밍업 기간과 최종 학습률이 피크 값의 10%까지 점진적으로 감소하는 코사인 학습률 스케줄이 구현됩니다.
연구자들은 기존의 학술 평가에서 Llama 1 및 Llama 2 기본 변형, MPT(MosaicML), Falcon과 같은 여러 오픈 소스 모델의 성능을 발표했습니다. 그 결과 전반적인 성능 면에서 라마 2가 라마 1에 비해 우월한 것으로 나타났습니다.
비공개 소스 모델과 함께 라마 2를 평가한 결과, MMLU 및 GSM8K 작업에서의 성능은 GPT-3.5와 유사한 것으로 나타났습니다. 그러나 인코딩 벤치마크에서는 다른 모델의 성능과 현저한 차이가 있었습니다. 또한 대부분의 벤치마크에서 라마 2 70B는 540B로 더 큰 크기를 가진 Google의 PaLM 모델과 동등하거나 더 나은 성능을 보였습니다.
사람에 의한 평가 분석에 따르면 Llama 2는 다른 오픈 소스 모델보다 성능이 상당히 뛰어나며, 실제로 가장 큰 Llama 2-Chat 변형은 ChatGPT와 경쟁할 수 있는 것으로 나타났습니다.
연구자들은 Llama 2와 Llama 2-Chat에 대한 오픈 액세스를 제공함으로써 책임감 있는 접근 방식을 취했으며, 모델의 투명성과 보안을 강화하겠다는 의지를 표명했습니다
논문 Llama 2: 오픈 재단과 미세 조정된 채팅 모델 ai.meta.com .