Contents

메타, 라마 3 출시, 최고의 오픈 모델 중 하나라고 주장하다

Contents

Meta는 오픈 소스 생성 AI 모델인 Llama 시리즈의 최신작인 를 출시했습니다: 라마 3. 더 정확하게는 새로운 Llama 3 제품군 중 두 가지 모델을 오픈 소스화했으며, 나머지는 향후 지정되지 않은 날짜에 출시할 예정입니다.

Meta는 각각 80억 개와 700억 개의 매개 변수를 자랑하는 두 가지 새로운 Llama 모델인 Llama 3 8B와 Llama 3 70B의 도입을 발표했습니다. 이 모델들은 이전 세대인 Llama 2 8B 및 Llama 2 70B와 비교했을 때 성능 면에서 크게 발전한 모델입니다. 파라미터 수가 증가함에 따라 이 모델들은 텍스트 분석 및 합성과 같은 작업에서 더 높은 숙련도를 보유할 수 있게 되었습니다. Meta에 따르면, 특별히 설계된 24,000개의 GPU 클러스터 2개를 통해 Llama 3 8B와 Llama 3 70B는 현재 사용 가능한 최고 성능의 생성 인공 지능 모델 중 하나로 꼽힙니다.

지식, 기술 습득, 추론 능력 등 AI 시스템의 지능의 다양한 측면을 평가하도록 설계된 MMLU, ARC, DROP 등 여러 저명한 AI 벤치마크에서의 성능은 라마 3 모델의 역량에 대한 Meta의 주장을 뒷받침합니다. 그러나 이러한 벤치마크의 유용성과 정확성에 대해서는 업계에서 비판과 논쟁의 대상이 되어 왔습니다. 그럼에도 불구하고 현재 메타 같은 회사에서 개발한 시스템을 포함하여 AI 시스템을 평가하는 데 널리 인정받는 수단으로 계속 사용되고 있습니다.

8억 개의 파라미터를 가진 라마 3는 MMLU, ARC, DROP, GPQA(생물학, 물리학, 화학 문제를 포괄하는), GPQA(생물학, 물리학, 및 화학 문제), HumanEval(코드 생성 평가), GSM-8K(수학 단어 문제), MATH(추가 수학 시험), AGIEval(문제 해결 테스트 스위트), BIG-Bench Hard(상식 추론 평가) 등 9개 벤치마크에서 최소 10억 개의 파라미터를 테스트했습니다.

미스트랄 7B와 젬마 7B는 지난 9월에 출시되었기 때문에 기술 발전의 선두에 서 있지는 않지만, 특정 벤치마크 테스트에서 라마 3 8B가 다른 제품보다 약간 더 높은 점수를 받은 것은 메타의 주장을 뒷받침하고 있습니다. 그러나 더 많은 파라미터 수를 가진 Llama 3, 특히 Llama 3 70B는 Google의 Gemini 시리즈의 가장 최신 버전인 Gemini 1.5 Pro와 같은 플래그십 제너레이티브 AI 모델과 경쟁할 수 있다는 점을 언급할 가치가 있습니다.

/images/meta-releases-llama-3-claims-its-among-the-best-open-models-available.png

이미지 크레딧: Meta

Llama 3 70B는 MMLU, HumanEval, GSM-8K 등 여러 지표에서 Gemini 1.5 Pro에 비해 우수한 성능을 보여줍니다.최상위 모델인 Anthropic의 최고 성능 모델인 Claude 3 Opus에는 미치지 못하지만, 라마 3 70B는 MMLU, GPQA, HumanEval, GSM-8K 및 MATH와 같은 여러 벤치마크에서 Claude 3 Sonnet을 포함한 같은 시리즈 내의 약한 모델보다 성능이 뛰어납니다.

/images/meta-releases-llama-3-claims-its-among-the-best-open-models-available-1.png

이미지 크레딧: Meta

Meta는 연구 결과에 따라 프로그래밍, 작곡, 추론 등 다양한 애플리케이션을 아우르는 테스트 스위트를 구축했습니다. 특히 이 종합적인 평가에서 메타의 라마 3 70B는 미스트랄의 미스트랄 미디엄, OpenAI의 GPT-3.5, 클로드 소네트 등 다른 모델을 능가했습니다. 모델링 팀에 대한 접근을 제한하여 엄격한 중립성을 보장했지만, 테스트를 만든 사람으로서 이러한 결과를 다소 회의적으로 고려해야 하는 것은 사실입니다.

/images/meta-releases-llama-3-claims-its-among-the-best-open-models-available-2.png

이미지 크레딧: 메타

메타는 새로운 라마 모델을 활용하면 질문에 답할 때 회피 성향이 줄어드는 ‘조향성’이 향상되고 역사적 사건, 공학 및 컴퓨터 프로그래밍을 포함한 과학 및 기술 분야와 관련된 사실 문의에 대한 정확성이 향상될 것이라고 밝혔습니다. 이러한 개선은 라마 2의 학습 단계에서 사용된 데이터보다 거의 7배나 많은 15조 개의 토큰 또는 약 7500억 개의 단어로 구성된 대폭 확장된 데이터 세트 덕분입니다. 인공 지능 영역에서 “토큰"은 “팬”, “타스”, “틱"이라는 음절이 “fant

이 데이터의 출처가 어디일까요?” 이 데이터의 출처는 어디일까요? 좋은 질문입니다. 메타는 “공개적으로 사용 가능한 소스"에서 가져왔고, 라마 2 훈련 데이터 세트보다 4배 더 많은 코드를 포함했으며, 영어 이외의 언어에서 성능을 향상시키기 위해 해당 세트의 5%에 비영어 데이터(약 30개 언어)가 포함되어 있다고만 밝힐 뿐 구체적인 출처는 밝히지 않았습니다. 메타는 또한 합성 데이터, 즉 AI가 생성한 데이터를 사용하여 라마 3 모델이 학습할 긴 문서를 만들었는데, 이는 잠재적인 성능 저하로 인해 다소 논란의 여지가 있는 접근 방식이라고 밝혔습니다.

Meta의 최근 릴리스에는 영어로 출력을 생성하도록 특별히 맞춤화된 모델이 포함되어 있습니다. 그러나 이러한 모델은 확장된 데이터 소스의 이점을 활용하여 미묘한 차이와 추세를 보다 효과적으로 식별할 수 있게 되었습니다. 그 결과 다양한 작업을 수행할 때 상당한 숙련도를 보여줍니다.

많은 제너레이티브 AI 공급업체는 학습 데이터를 경쟁 우위로 간주하여 학습 데이터와 관련 정보를 소중히 보관하고 있습니다.그러나 학습 데이터 세부 정보는 지적재산권 관련 소송의 잠재적 원인이 될 수 있어 많은 것을 공개하기 꺼려지는 또 다른 이유이기도 합니다. 최근 보도된 에 따르면 Meta는 AI 경쟁사와 보조를 맞추기 위해 한때 회사 자체 변호사의 경고에도 불구하고 저작권이 있는 전자책을 AI 학습에 사용했으며, Meta와 OpenAI는 코미디언 사라 실버맨을 비롯한 저자들이 공급업체가 저작권이 있는 데이터를 학습에 무단으로 사용했다는 혐의로 제기한 소송의 대상에 올라와 있는 것으로 밝혀졌습니다.

그렇다면 생성 AI 모델의 다른 두 가지 일반적인 문제인 독성과 편향성( Llama 2 포함)은 어떤가요? 라마 3는 이러한 영역에서 개선되었나요? 예, Meta.

Meta는 모델 학습 정보의 품질을 개선하기 위해 향상된 데이터 필터링 기술을 구현했으며, 두 가지 생성 AI 안전 패키지인 Llama Guard와 CybersecEval의 업그레이드 버전을 통해 Llama 3 모델 및 기타 유사한 시스템에 의한 콘텐츠 남용과 의도하지 않은 생성을 억제하기 위한 목적으로 데이터 필터링 기술을 개선했습니다. 또한, 생성 AI 모델 내에서 잠재적인 코드 취약점을 식별하기 위한 새로운 도구인 Code Shield를 도입하고 있습니다.

하지만 필터링이 완벽한 것은 아니며, Llama Guard, CybersecEval, Code Shield와 같은 도구는 어디까지만 가능합니다. (참조: 질문에 대한 답변을 구성하고 개인 건강 및 금융 정보를 유출하는 Llama 2의 경향 .) 학계에서 대체 벤치마크에 대한 테스트를 포함하여 라마 3 모델이 실제 환경에서 어떻게 작동하는지 지켜봐야 할 것입니다.

메타는 현재 페이스북, 인스타그램, 왓츠앱, 메신저, 웹 등 다양한 플랫폼에서 메타 AI 어시스턴트를 통해 액세스할 수 있는 라마 3 모델을 아마존 웹 서비스(AWS), 데이터브릭스, 구글 클라우드, 허깅 페이스, 캐글, IBM의 왓슨X, 마이크로소프트 애저, 엔비디아의 NIM, 스노우플레이크를 포함한 여러 클라우드 환경에서 관리형으로 호스팅할 계획이라고 발표했습니다. 또한 향후 이러한 모델의 반복 버전은 AMD, AWS, Dell, Intel, NVIDIA 및 Qualcomm에서 제공하는 하드웨어 구성 요소에 최적화될 예정입니다.

AI 기술의 눈부신 발전으로 더욱 강력하고 효율적인 머신러닝 알고리즘이 탄생하여 전례 없는 성능의 새로운 시대가 열릴 것으로 기대됩니다.

Meta는 현재 4,000억 개 이상의 파라미터로 구성된 라마 3 모델을 훈련하고 있으며, 이 모델은 ‘다국어 대화’, 더 많은 데이터 입력, 텍스트뿐만 아니라 이미지 및 기타 양식을 이해할 수 있는 능력을 갖추고 있어 라마 3 시리즈는 Hugging Face의 Idefics2 와 같은 공개 릴리스에 발맞춰 나갈 수 있을 것이라고 말합니다.

/images/meta-releases-llama-3-claims-its-among-the-best-open-models-available-3.png

이미지 크레딧: 메타

앞으로의 노력은 여러 언어와 양식을 수용하도록 라마 3의 용량을 확장하는 동시에 문맥의 범위를 넓히고 추론 및 프로그래밍 기술을 포함한 대규모 언어 모델의 다양한 핵심 역량에 대한 숙련도를 향상시키는 것입니다. 앞으로의 행보가 기대됩니다.

Indeed.