Contents

너무 많은 모델

Contents

/images/too-many-models.jpg

과도한 인공지능 모델 수는 관점에 따라 달라질 수 있습니다. 하지만 일주일에 10개의 모델을 제작하는 것은 과중한 작업으로 간주될 수 있습니다. 모델 수가 늘어날수록 이러한 모델을 비교하고 대조하는 작업은 점점 더 어려워지고, 그 효과와 유용성에 대한 의문이 제기됩니다.

현 시대는 인공지능의 역사에서 지속적으로 독특한 특징을 보여 온 인공지능 개발의 새로운 국면을 나타냅니다. 전문성을 갖춘 개인부터 막대한 자금력을 갖춘 기업까지 다양한 모델의 출현은 이 변칙적인 시기를 반영합니다.

주어진 텍스트를 좀 더 세련되게 표현할 수 있도록 허락해 주세요. 이번 주 발표의 주요 내용을 낭독해 볼까요? 제 의도는 각 모델을 구별하는 특징적인 속성을 최대한 간결하게 요약하는 것이었습니다.

LLaMa-3

메타의 최신 ‘개방형’ 플래그십 대형 언어 모델입니다. (“개방형"이라는 용어에 대해서는 현재 논란이 있지만, 이 프로젝트는 커뮤니티에서 널리 사용되고 있습니다.) 미스트랄 8×22 : 한때 개방성을 수용했던 프랑스에서 나온 ‘전문가들의 혼합’ 모델로, 큰 면에서는 개방성을 멀리하고 있습니다. Stable 확산 3 터보 : 개방형 Stability의 새로운 API에 맞게 업그레이드된 SD3. OpenAI의 모델 명명법에서 “터보"를 차용한 것은 조금 이상하지만 괜찮습니다. Adobe Acrobat AI Assistant : 800파운드의 문서 고릴라가 “문서와 대화"합니다. 은 대부분 ChatGPT용 래퍼인 것 같지만 . 레카 코어 : 이전에 Big AI에 고용되었던 소규모 팀에서 만든, 적어도 명목상으로는 대기업과 경쟁할 수 있는 멀티모달 모델입니다. Idefics2 : 보다 개방적인 멀티모달 모델로, 최근의 더 작은 미스트랄과 구글 모델을 기반으로 구축되었습니다. OLMo-1.7-7B : 가장 개방적인 AI2의 LLM의 더 큰 버전으로, 향후 70B 규모 모델을 위한 디딤돌입니다. Pile-T5 : 신뢰할 수 있는 T5 모델을 코드 데이터베이스인 Pile에서 미세 조정한 버전입니다. 여러분이 알고 사랑하는 동일한 T5이지만 더 나은 코딩이 가능합니다. Cohere Compass : 더 많은 사용 사례를 다루기 위해 여러 데이터 유형을 통합하는 데 중점을 둔 ‘임베딩 모델’(아직 모르시는 분들도 걱정하지 마세요). Imagine Flash : 새로운 증류 방식을 사용하여 품질 저하 없이 확산을 가속화하는 Meta의 최신 이미지 생성 모델입니다. 무한 : “사용자가 보고, 말하고, 들은 것을 기반으로 하는 개인화된 AI입니다. 웹 앱, Mac 앱, Windows 앱, 웨어러블로 제공됩니다.”

제가 이 글을 쓰는 동안 하나가 발표되었으니 11개입니다. 그리고 분명히 말씀드리지만, 이번 주에 출시되거나 미리 공개된 모든 모델이 아닙니다! 저희가 보고 논의한 것들만 나열한 것입니다. 포함 조건을 조금만 완화하면 기존 모델을 미세 조정한 것, Idefics 2와 같은 콤보, 실험적이거나 틈새 시장인 것 등 수십 가지가 될 것입니다. 이번 주의 새로운 도구는 말할 것도 없이 ( 토치튠 )을 만들고 ( 글레이즈 2.0 )와 대결할 수 있는 제너레이티브 AI입니다!

새로운 출시작이 계속 쏟아져 나오기 때문에 리뷰어로서 지정된 등급에 해당하는 모든 타이틀을 다루기는 어렵습니다. 다음 주에는 지난 주만큼 많은 게임이 출시되지는 않겠지만, 여전히 주목할 만한 게임이 몇 가지 있을 것입니다. 따라서 독자들에게 해당 분야의 최신 동향과 발전 상황에 대한 정보를 제공하기 위해 어떤 타이틀을 우선적으로 다룰지 선정하는 데 어려움을 겪을 수밖에 없습니다.

인공 지능 영역의 일반적인 추세는 ChatGPT 및 Gemini와 같은 특정 고급 모델이 다양한 기능과 진입점을 아우르는 포괄적인 웹 기반 플랫폼으로 변모했음을 보여줍니다. 반면에 LLaMa나 OLMo와 같은 고도의 언어 모델은 기본 설계가 유사할 수 있지만, 마키 이름처럼 눈에 띄는 정체성을 갖기보다는 백엔드 서비스나 모듈로 더 신중하게 기능합니다.

GPT-4V 및 Gemini Ultra와 같은 중요한 AI 플랫폼 공개를 둘러싼 과대광고를 활용하기 위해 의도적으로 합쳐진 이름입니다. 새로운 모델이 출시될 때마다 엄청난 중요성을 지닌다는 인상을 전달하기 위함입니다. 그러나 실제로는 특정 개인에게만 관련성이 있을 뿐 대다수 사용자에게는 관련성이 없을 수 있습니다.

자동차와 같이 광범위하고 다면적인 영역의 맥락에서 이 개념을 생각해 보면 진화의 궤적을 관찰할 수 있습니다. 초기에는 다양한 크기의 세단과 유틸리티 차량 등 몇 가지 초보적인 옵션만 포함해서 차량을 구입하는 것은 복잡하지 않은 문제였습니다. 그러나 현재는 수많은 브랜드와 모델이 시장에 넘쳐나면서 개인이 이러한 제품 대부분에 익숙해지는 것은 비현실적인 일이 되었습니다.실제로 이러한 차량의 대부분은 잠재적 구매자의 특정 요구 사항을 충족하지 못하거나 우리가 전통적으로 생각하는 자동차를 정의하는 기본 특성이 부족하여 실용적 필요성의 범위를 벗어납니다. 인공지능 분야는 그에 버금가는 변화를 겪고 있습니다.

실제로 저희 저널은 ChatGPT와 유사한 대규모 모델이 등장하기 훨씬 전부터 인공지능 발전에 대해 보도하는 데 앞장서 왔습니다. 사실 몇 년 전만 해도 이 주제에 대한 관심은 지금에 비해 현저히 적었습니다. 하지만 저희는 AI가 널리 채택될 수 있는 혁신으로서 엄청난 잠재력을 가지고 있음을 인식하고 있었기 때문에 제한된 대상에도 불구하고 이 주제를 계속 다루었습니다. 초창기에는 머신러닝 전문가들 간의 협력을 촉진하여 경계를 허물고 지평을 넓히는 데 기여한 수많은 연구, 모델, SIGGRAPH 및 NeurIPS와 같은 컨퍼런스가 이 분야의 발전을 형성하는 데 중요한 역할을 했습니다. 이 주제에 대한 헌신의 증거로 내러티브 시각화

를 공유하겠습니다. 이 활동은 현재 기술 산업에서 가장 큰 분야로 자리 잡은 인공지능의 엄청난 성장과 상용화로 인해 더욱 중요한 의미를 갖게 되었습니다. 따라서 이러한 발전 중 어떤 것이 이전의 생성 언어 모델을 뛰어넘은 GPT-3와 같은 현재의 최첨단 모델을 뛰어넘는 중요한 돌파구가 될 수 있는지에 대한 사람들의 호기심도 상당합니다.

저자의 발언을 통해 AI 언어 생성 모델에 몇 가지 발전이 있기는 하지만, OpenAI가 이룬 획기적인 성과에 비하면 이 분야에 큰 변화를 가져올 만한 역량을 갖추지 못했다는 것을 유추해볼 수 있습니다. 이는 후자의 발전이 머신러닝 아키텍처 설계의 혁신적인 변화를 기반으로 이루어졌고, 이후 다양한 기업에서 이를 광범위하게 수용했기 때문입니다. 따라서 앞으로의 AI 개발은 혁신적인 발전보다는 점진적인 개선이 주를 이룰 것으로 보입니다.

한 모델 반복에서 다른 모델로의 발전이 큰 의미가 없다고 주장하는 사람들도 있지만, 실제로 연구자와 엔지니어들이 세심한 작업을 통해 이러한 진전을 이루고 있다는 점에 주목하는 것이 중요합니다. 이러한 반복을 통해 중대한 결함을 해결하거나, 주목할 만한 개선 사항이 나타나거나, 이전에 알려지지 않았던 취약점을 발견하는 경우가 많습니다.저희는 일반적으로 이러한 발전의 일부만을 다루고 있지만, 현재 머신러닝에 관심이 있는 개인이 알아야 할 것으로 판단되는 모든 모델의 광범위한 목록을 작성하는 작업을 진행 중입니다. 이 목록에는 약 12개의 서로 다른 모델이 포함되어 있습니다.

상당한 규모의 사건은 저희 웹사이트의 보도 여부와 관계없이 반드시 알려질 것이므로 걱정할 필요가 없습니다. 그러한 사건의 규모는 우리 자신과 여러분 모두에게 명확하게 드러날 것입니다.