상업적으로 사용할 수 있는 최고의 오픈 소스 대규모 언어 모델(LLM)
현재 비즈니스 목적으로 사용할 수 있는 가장 유명한 오픈 소스 대규모 언어 모델 목록:
라마 - 2
Meta는 사전 학습 및 미세 조정된 언어 모델 모음인 라마 2와 라마 2의 변형인 라마 2-Chat을 공개했습니다. 후자는 최대 700억 개의 매개변수를 지원하는 확장성을 자랑합니다. 안전성과 유용성 지표를 포괄하는 엄격한 평가 결과에 따르면 Llama 2-Chat은 대부분의 경우 기존 오픈 소스 대안보다 성능이 뛰어납니다. 또한, 사람의 평가에 따르면 Llama 2-Chat과 특정 독점 시스템 간에 상응하는 조정이 이루어지고 있습니다.
AI 언어 모델의 안전성을 보장하기 위해 연구원들은 몇 가지 조치를 시행했습니다. 여기에는 특히 잠재적 위험과 관련하여 데이터 세트에 주석을 달거나 취약점을 식별하기 위한 레드팀 연습을 수행하는 것이 포함됩니다. 또한 안전 문제에 중점을 두고 모델을 개선하고 있으며, 그 효과를 평가하기 위해 지속적인 검토를 실시하고 있습니다.
라마 2는 무려 700억 개의 매개변수가 있는 모델을 포함하여 여러 가지 변형으로 제공되고 있습니다. 또한 대화형 작업을 위해 특별히 설계된 Llama 2-Chat은 70억 개와 130억 개의 동일한 매개변수 범위를 가진 해당 버전으로 제공됩니다.
프로젝트: https://huggingface.co/meta-llama
Paper: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
Falcon
아부다비의 기술 혁신 연구소에서는 70억, 400억, 1,800억 개의 파라미터를 자랑하는 모델을 아우르는 Falcon 시리즈를 출시했습니다. 이 인과관계 디코더 전용 모델은 주로 온라인 소스에서 파생된 방대하고 다양한 데이터를 활용하여 훈련되었습니다. 이 시리즈에서 가장 주목할 만한 모델인 Falcon-180B는 3조 5천억 개가 넘는 방대한 텍스트 요소에 대한 사전 학습을 거친 최초이자 유일한 공개 사전 학습 실행으로 주목받고 있습니다.
연구자들은 Falcon-180B가 PaLM이나 친칠라를 포함한 다른 모델에 비해 상당한 진전을 보인다는 것을 발견했습니다. 예를 들어 LLaMA 2나 Inflection-1과 같이 현재 개발 중인 동시대 모델을 능가합니다. 특히, Falcon-180B는 사전 훈련 및 추론 비용을 줄이면서 PaLM-2-Large와 비슷한 수준의 성능을 달성합니다. 따라서 GPT-4, PaLM-2-Large와 함께 전 세계 3대 언어 모델 중 하나로 꼽힙니다.
프로젝트: https://huggingface.co/tiiuae/falcon-180B
프로젝트: https://arxiv.org/pdf/2311.16867.pdf
돌리 2.0
데이터브릭스 연구원들은 비즈니스 애플리케이션에 최적화되고 데이터브릭스 머신러닝 플랫폼을 기반으로 구축된 LLM Dolly-v2-12b라는 AI 언어 모델을 개발했습니다. 이 모델은 Pythia-12b 아키텍처를 기반으로 하며, 데이터브릭스 직원들이 생성한 약 15,000개의 명령어/응답 쌍을 활용하여 학습되었습니다. 이러한 명령어/응답 쌍은 InstructGPT 문서에 설명된 대로 브레인스토밍, 분류, 폐쇄형 질문 답변, 생성, 정보 추출, 개방형 질문 답변, 요약 작성과 같은 광범위한 인지 능력을 다룹니다.
다목적 언어 모델인 Dolly-v2는 다양한 애플리케이션에 맞게 다양한 모델 크기로 제공됩니다. Dolly-v2-7b 버전은 69억 개의 파라미터를 자랑하며 Pythia-6.9b를 기반으로 구축되었습니다.
Dolly-v2-3b는 28억 개에 달하는 놀라운 파라미터 수를 자랑하며 Pythia-2.8b 모델에 기반을 두고 있습니다.
HF 프로젝트: https://huggingface.co/databricks/dolly-v2-12b
Github: https://github.com/databrickslabs/dolly#getting-started-with-response-generation
MPT
최근 트랜스포머 기반 언어 모델의 발전은 MosaicML의 MPT-7B 도입으로 인한 것으로 볼 수 있습니다. 이 모델은 텍스트와 코딩 요소를 모두 포함하는 1조 개의 토큰으로 구성된 광범위한 데이터 세트에 대해 처음부터 학습되었습니다.
MPT-7B의 훈련 요법의 놀라운 효과는 정말 놀랍습니다. 단 9.5일 만에 사람의 개입 없이 전체 교육 과정을 모두 완료했습니다. 작업의 상당한 규모와 복잡성을 고려할 때 MPT-7B를 이렇게 합리적인 비용으로 훈련할 수 있었다는 것은 매우 인상적입니다. MosaicML의 최첨단 인프라를 활용한 훈련 절차의 비용은 약 20만 달러에 달했습니다.
HF 프로젝트: https://huggingface.co/mosaicml/mpt-7b
Github: https://github.com/mosaicml/llm-foundry/
FLAN - T5
Google은 여러 작업에 노출되어 개선된 T5의 고급 반복 버전인 FLAN-T5를 공개했습니다. FLAN-T5는 PaLM 62B와 같은 다른 실질적인 모델에 비해 뛰어난 성능으로 입증된 것처럼 인상적인 소수 샷 학습 기능을 보여줍니다.저희 연구팀은 이 접근법을 사용하여 다양한 과제와 평가 기준에 걸쳐 언어 모델 결과를 최적화하는 수단으로서 교육적 미세 조정의 유용성을 입증했습니다.
HF 프로젝트: https://huggingface.co/google/flan-t5-base
논문: https://arxiv.org/pdf/2210.11416.pdf
GPT-NeoX-20B
EleutherAI는 200억 개의 파라미터를 자랑하는 광범위한 자동 회귀 언어 모델인 GPT-NeoX-20B를 출시했습니다. 지식 기반 능력, 수학적 통찰력, 언어적 이해를 아우르는 다양한 작업에서 GPT-NeoX-20B의 성능을 평가합니다.
평가 결과, GPT-NeoX-20B는 제한된 입력 데이터에서도 숏샷 추론 모델로서 탁월한 성능을 발휘하는 것으로 나타났습니다. 비슷한 크기의 다른 모델인 GPT-3 및 FairSeq과 비교했을 때, GPT-NeoX-20B는 특히 5샷 평가에서 주목할 만한 우월성을 보여주었습니다.
HF 프로젝트: https://huggingface.co/EleutherAI/gpt-neox-20b
논문: https://arxiv.org/pdf/2204.06745.pdf
오픈 사전 훈련된 트랜스포머(OPT)
대규모 언어 모델(LLM)은 수많은 계산 주기에 걸친 광범위한 훈련 요구 사항으로 인해 상당한 컴퓨팅 리소스를 필요로 합니다. 따라서 충분한 재정적 뒷받침이 없는 조사자에게는 재현성이라는 엄청난 과제가 생깁니다. 또한, 모델 매개변수에 대한 완전한 접근에 대한 제한은 애플리케이션 프로그래밍 인터페이스(API)를 통한 접근 여부와 관계없이 포괄적인 조사 및 검토를 방해하는 경우가 많습니다.
이러한 문제를 해결하기 위해 메타는 디코더 구성 요소만 포함하며 1억 2,500만 개에서 1,750억 개에 이르는 다양한 파라미터 구성을 포괄하는 광범위한 사전 학습 트랜스포머 컬렉션인 OPT(Open Pre-trained Transformers)를 도입했습니다. OPT의 주요 목표는 최첨단 언어 모델에 대한 광범위한 접근성을 촉진하는 동시에 학술 커뮤니티에 배포할 때 윤리 기준을 준수하는 것입니다.
연구자들은 OPT 컬렉션의 정점 제품인 OPT-175B가 GPT-3에 필적하는 성능 수준을 보인다는 것을 입증했습니다. 그러나 OPT-175B가 다른 대규모 언어 모델과 진정으로 차별화되는 점은 개발 과정에서 환경에 미치는 영향을 크게 줄여 기존 훈련 방식에 비해 일반적인 환경 영향의 1/7만 필요로 한다는 점입니다.
HF 프로젝트: https://huggingface.co/facebook/opt-350m
Paper: https://arxiv.org/pdf/2205.01068.pdf
BLOOM
빅사이언스의 연구원들이 만든 최신 1760억 개의 파라미터 오픈 액세스 언어 모델인 Bloom은 디코더 전용 변환기 모델이라는 독점적인 설계 덕분에 주어진 프롬프트에 따라 텍스트 반응을 생성하는 데 탁월한 능숙함을 자랑합니다. 자연어와 프로그래밍 모국어를 포함해 59개 언어 500개 이상의 소스로부터 다양한 콘텐츠를 포괄하는 ROOTS 말뭉치의 방대한 리소스를 활용하여 Bloom은 다양한 언어 환경 내에서 효과적으로 탐색하고 출력을 생성하도록 훈련되었습니다.
Paper: https://arxiv.org/pdf/2211.05100.pdf
HF 프로젝트: https://huggingface.co/bigscience/bloom
바이촨
바이촨 2로 알려진 Baichuan Intelligence의 광범위한 오픈 소스 언어 모델의 최신 버전은 다양한 언어적 미묘함과 구문을 포괄하도록 꼼꼼하게 선정된 2조 6000억 개의 토큰으로 이루어진 인상적인 코퍼스를 자랑하고 있습니다. 특히, 이 고급 모델은 중국어와 영어 모두에서 평판이 좋은 벤치마크에서 모범적인 결과를 보여줌으로써 동급 내에서 새로운 표준을 세웠습니다.
바이촨 2는 여러 반복으로 제공되어 다양한 애플리케이션 요구 사항을 충족합니다. 예를 들어, 기본 모델의 파라미터 수는 70억 개 또는 130억 개로 두 가지 옵션이 있습니다. 이 다재다능한 제품은 광범위한 사용자 선호도를 수용합니다. 또한, 바이촨 2는 대화 상황에 맞게 특별히 제작된 70억 개와 130억 개의 매개변수를 각각 갖춘 채팅 모델을 제공합니다. 또한 향상된 리소스 관리를 위해 간소화된 4비트 양자화 채팅 모델이 제공되어 고성능을 유지하면서 계산 오버헤드를 최소화합니다.
HF 프로젝트: https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat#Introduction
BERT
Google은 라벨이 없는 텍스트에서 심층 양방향 표현을 사전 학습하기 위해 특별히 설계된 BERT(Bidirectional Encoder Representations from Transformers)라는 혁신적인 접근 방식을 출시했습니다. 이전 언어 모델과 달리 이 모델은 아키텍처의 각 계층에서 왼쪽과 오른쪽 문맥을 모두 고려하므로 언어적 미묘함을 포괄적으로 이해할 수 있습니다.
BERT는 개념적 우아함과 강력한 성능의 놀라운 조화를 보여줍니다.광범위한 사전 학습을 통해 포괄적인 텍스트 표현을 생성할 수 있어 다양한 NLP 작업에 탁월하며, 다용도로 사용할 수 있어 최소한의 조정만으로 다양한 애플리케이션에 쉽게 적용할 수 있습니다. 이러한 뛰어난 유연성은 출력 레이어를 추가하는 것만으로 미세 조정을 수행할 수 있기 때문에 BERT를 간단하면서도 강력하게 만들 수 있습니다.
BERT는 다양한 자연어 처리 작업에서 탁월한 숙련도를 보여주며, 특히 SQuAD 질문 답변 능력, MultiNLI 정밀도, GLUE 벤치마크 점수와 같은 영역에서 주목할 만한 개선이 관찰되었습니다. 실제로 BERT를 활용하면 GLUE 점수가 80.5%까지 상승하여 7.7%의 상당한 상대적 향상을 나타냅니다.
Github: https://github.com/google-research/bert
Paper: https://arxiv.org/pdf/1810.04805.pdf
HF 프로젝트: https://huggingface.co/google-bert/bert-base-cased
Vicuna
Vicuna-13B는 LLaMA 모델을 개선하기 위해 ShareGPT에서 선별된 공유 사용자 상호작용을 활용하여 개발된 혁신적인 오픈 소스 챗봇입니다. 이 최첨단 챗봇은 뛰어난 대화 능력을 자랑하며 챗봇 기술 분야에서 상당한 발전을 이루었습니다.
예비 평가에서 저희는 GPT-4를 활용하여 Vicuna-13B의 효율성을 평가했습니다. 그 결과, Vicuna-13B는 OpenAI ChatGPT, Google Bard 등 여러 저명한 대화형 AI 모델과 비교했을 때 뛰어난 역량을 보여줬으며, 전체적으로 90% 이상의 우수 등급을 받았습니다. 또한, Vicuna-13B는 LLaMA 및 스탠포드 알파카와 같은 대체 시스템보다 90% 이상의 경우에서 우월성을 입증했습니다. 특히 Vicuna-13B는 개발 비용이 약 300달러에 불과해 경제성 측면에서도 놀라운 가치를 제공합니다.
HF 프로젝트: https://huggingface.co/lmsys/vicuna-13b-delta-v1.1
미스트랄
미스트랄 7B v0.1은 70억 개라는 놀라운 파라미터 수를 통해 자연어 처리 분야에서 상당한 진전을 이뤄냈습니다. 이 최첨단 모델은 논리, 수학, 프로그래밍 등의 영역에서 Llama 2 13B와 Llama 1 34B의 성능을 능가하는 다양한 작업에서 탁월한 결과를 달성합니다. 전례 없는 성능으로 AI 기술의 잠재력을 최대한 활용하고자 하는 사람들에게 없어서는 안 될 도구입니다.
그룹화된 쿼리 주의(GQA), 슬라이딩 윈도우 주의(SWA), 맞춤형 변형인 Mistral 7B - Instruct와 같은 고급 기술을 사용하여 추론을 가속화하고, 다양한 시퀀스 길이를 효과적으로 관리하며, 계산 비용을 최소화할 수 있습니다. 후자는 지침을 준수해야 하는 작업을 위해 특별히 설계되어 이러한 상황에서 뛰어난 성능을 제공합니다.
HF Project: https://huggingface.co/mistralai/Mistral-7B-v0.1
Paper: https://arxiv.org/pdf/2310.06825.pdf
Gemma
Gemma는 Gemini 모델 개발에 사용된 유사한 기술적 기반과 연구 방법론을 활용하여 Google에서 설계한 고급 오픈 소스 언어 모델을 나타냅니다. 텍스트 대 텍스트 작업을 용이하게 하도록 특별히 맞춤화된 이 디코더 중심의 대규모 영어 모델은 요약 합성, 추론 및 질문 응답을 포함하는 다양한 텍스트 생성 작업에서 놀라운 숙련도를 보여줍니다.
Gemma는 최소한의 무게로 데스크톱 컴퓨터, 랩톱 또는 개인 클라우드 기반 시스템과 같이 리소스 제약이 많은 상황에서 최적의 선택이 될 수 있습니다.
HF 프로젝트: https://huggingface.co/google/gemma-2b-it
Phi-2
Microsoft에서 27억 개의 매개 변수를 자랑하는 트랜스포머 모델인 Phi-2를 공개했습니다. 이전 모델인 Phi-1.5와 마찬가지로 이 모델도 다양한 학습 데이터 소스를 활용합니다. 또한 Phi-2는 유익하고 안전한 것으로 간주되는 합성된 텍스트 콘텐츠와 선별된 웹 페이지를 포함하는 새로운 데이터 세트를 통합합니다. 논리적 추론, 언어 능력, 상식적 이해력을 평가하는 벤치마크 표준과 비교했을 때 Phi-2는 130억 개 미만의 파라미터를 가진 모델과 거의 동등한 성능을 보였으며 특정 측면에서는 여러 경쟁사를 능가하는 놀라운 성능을 보여주었습니다.
HF 프로젝트: https://huggingface.co/microsoft/phi-2
스타코더2
스타코더2는 코드용 대규모 언어 모델(Code LLM)의 신중한 개발에 중점을 둔 BigCode 프로젝트로 알려진 공동 노력의 산물입니다. Stack v2는 619개의 서로 다른 프로그래밍 언어를 포괄하는 SWH(Software Heritage)의 소스 코드 아카이브 디지털 리포지토리를 활용합니다.코드 문서, Kaggle 노트북, GitHub 풀 리퀘스트 등 다양한 최상위 데이터 소스를 선별적으로 통합하여 트레이닝 세트가 기존 StarCoder 데이터 세트보다 4배 더 큰 규모로 확장되었습니다.
30억에서 150억에 이르는 파라미터를 자랑하는 StarCoder2는 3.3조에서 4.3조 개의 토큰을 포함하는 학습을 거친 후 방대한 Code LLM 벤치마크를 사용하여 종합적으로 평가되었습니다. 특히, 평가 결과에 따르면 StarCoder2-3B는 스타코더베이스-15B를 비롯한 비슷한 규모의 다른 코드 LLM과 비교했을 때 대부분의 평가 지표에서 우수한 성능을 보였습니다. 실제로 스타코더2-3B는 여러 경우에서 스타코더베이스-15B보다 성능이 뛰어납니다. 반대로 StarCoder2-15B는 크기가 두 배인 CodeLlama-34B와 비교했을 때 비슷하거나 더 나은 성능을 보여줍니다: https://arxiv.org/abs/2402.19173
HF 프로젝트: https://huggingface.co/bigcode
Mixtral
Mixtral AI는 최근 접근 가능한 파라미터를 특징으로 하고 널리 통용되는 Apache 2.0 라이선스에 따라 허가된 특수 모델의 고효율 조합인 Mixtral 8x7B를 출시했습니다. 이 혁신적인 솔루션은 기존 방식보다 6배 빠른 놀라운 추론 속도를 자랑하며, 다양한 테스트에서 전반적인 성능 면에서 Llama 2 70B를 능가하는 결과를 보여 다른 솔루션과 차별화됩니다. 믹스트랄이 제공하는 비용 효율성은 업계에서 타의 추종을 불허하며, 오픈 소스 대안을 찾는 사람들에게 최고의 선택이 되고 있습니다. 또한 종합적인 평가를 통해 Mixtral은 수많은 표준 평가에서 GPT3.5보다 우월함을 입증하여 이 분야의 선두 자리를 굳건히 하고 있습니다.
믹스트랄은 영어, 프랑스어, 이탈리아어, 독일어, 스페인어를 지원하는 탁월한 언어 역량을 보유하고 있습니다. 최대 32,000개에 달하는 방대한 텍스트 확장을 손쉽게 처리할 수 있는 놀라운 능력을 보여줍니다. 또한 이 모델은 코딩 작업을 인상적인 효율로 실행하는 데 탁월합니다. 또한 MT-Bench 테스트에서 8.3점이라는 높은 점수를 획득하며 믹스트랄의 뛰어난 성능을 입증했습니다.
HF 프로젝트: https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
블로그: https://mistral.ai/news/mixtral-of-experts/
구글, 엔비디아, 메타, 스탠포드 대학교, 매사추세츠 공과대학(MIT), 마이크로소프트 등 업계 최고 리더들 사이에서 빠르게 인기를 얻고 있는 인공 지능 연구 뉴스레터를 구독하세요.