딥마인드의 젬마: 개방형 모델을 통한 AI 안전 및 성능 향상
대규모 언어 모델(LLM)은 언어 모델링, 시각 인식, 텍스트-이미지 및 비디오 합성을 아우르는 다양한 실제 사용 사례에서 놀라운 기능을 입증했습니다. 의심할 여지 없이 이러한 모델은 현재의 AI 발전에서 중심적인 위치를 차지하고 있습니다. 그럼에도 불구하고 다양한 시스템에 안전하게 통합하는 것과 관련하여 상당한 우려가 지속되고 있습니다.
제미니 연구 및 기술 기반의 개방형 모델"은 강력한 제미니 모델의 획기적인 연구 및 기술 기반을 기반으로 한 가볍지만 고도로 발전된 혁신적인 개방형 모델 제품군을 소개합니다. 이 개발은 언어 이해력, 논리적 사고력, 보안을 측정하는 학문적 벤치마크와 관련하여 현재의 개방형 모델보다 크게 개선된 것입니다.
Gemma의 아키텍처는 2017년 Vaswani 등이 제안한 트랜스포머 디코더의 기본 원리를 기반으로 구축되었습니다. 그러나 원래의 트랜스포머 논문이 발표된 이후 몇 가지 혁신적인 기능이 추가되어 개선되었습니다. 구체적으로는 다중 쿼리 주의, RoPE 임베딩, GeGLU 활성화, RMSNorm 등이 있습니다. 이러한 개선 사항의 포함은 Gemma가 보여준 놀라운 결과를 달성하는 데 필수적입니다.
Gemma는 각각 특정 사용 사례를 염두에 두고 설계된 두 가지 반복 버전으로 제공됩니다. 첫 번째 버전은 70억 개에 달하는 파라미터 수를 자랑하며, GPU 및 TPU 플랫폼 간 원활한 통합을 위해 특별히 제작되었으며 개발자의 필요에 따라 유연성을 제공합니다. 반대로 두 번째 버전은 CPU 시스템에서의 성능과 디바이스 기반 애플리케이션과의 호환성을 위해 최적화된 20억 개의 매개변수 수를 자랑합니다. 두 버전 모두 높은 평가를 받고 있는 Gemini 모델 계보에 사용된 것과 동일한 아키텍처 프레임워크, 데이터 세트 및 학습 접근 방식을 사용하여 최대 6테라바이트의 데이터를 활용하는 광범위한 학습을 거쳤습니다.
고급 AI 시스템은 다양한 산업 분야에서 점점 더 널리 보급되고 있으며, 이는 기회와 도전을 동시에 제시하고 있습니다. 이러한 문제를 해결하기 위해서는 보다 진보된 AI 기술을 개발하는 동시에 이러한 시스템의 책임 있는 개발 및 배포를 위한 지침과 전략을 수립하는 포괄적인 접근 방식이 필요합니다. 이 백서에서는 개발자에게 윤리적 원칙과 기술 도구를 제공하여 개인의 프라이버시 권리를 존중하고 사회 복지를 증진하는 모델을 만들 수 있도록 함으로써 책임감 있는 AI 모델 생성을 촉진하도록 설계된 혁신적인 프레임워크인 GEMMA에 대해 설명합니다.
Gemma는 대화, 논리적 추론, 수학 계산, 프로그래밍 등 다양한 분야에서 탁월한 능력을 보여줬는데, 이는 MMLU(64.3% 달성)와 MBPP(44.4% 달성) 등의 시험에서 보여준 뛰어난 성적에서 알 수 있듯이 더욱 두드러집니다. 이러한 성과는 젬마의 뛰어난 능력과 공개적으로 접근 가능한 대규모 언어 모델에서 아직 실현되지 않은 방대한 잠재력을 모두 보여줍니다.
젬마의 인공지능 영역 도입은 과학 연구, 교육, 창작 활동 등 다양한 분야에 걸쳐 가치 있는 애플리케이션의 생성을 촉진할 것으로 기대됩니다. 또한 Gemma를 신중하게 활용하면 최첨단 모델의 보안을 강화하여 대규모 언어 모델(LLM)의 발전을 촉진하고 미래의 획기적인 발전을 위한 기반을 마련할 수 있습니다.
Gemma: Gemini 연구 및 기술에 기반한 오픈 모델 논문 arXiv 에 있습니다.