Contents

"너무 무서워서" 공개할 수 없게 된 GPT-2는 Excel 스프레드시트에 압축됩니다.

/images/once-too-scary-to-release-gpt-2-gets-squeezed-into-an-excel-spreadsheet.jpg

확대게티 이미지

요즘은 ChatGPT의 등장으로 AI 대규모 언어 모델(LLM)이 어디에나 있는 것 같습니다. 이샨 아난드라는 소프트웨어 개발자는 OpenAI의 우려 끝에 2019년에 처음 출시된 GPT-2라는 ChatGPT의 선구자를 작동하는 Microsoft Excel 스프레드시트에 집어넣는 데 성공했습니다. 무료로 제공되는 는 사람들에게 LLM의 작동 방식을 교육하기 위해 고안되었습니다.

“스프레드시트를 사용하면 누구나(개발자가 아니더라도) 방해가 되는 추상화를 최소화하면서 ‘실제’ 트랜스포머가 내부에서 어떻게 작동하는지 직접 탐색하고 플레이할 수 있습니다.“라고 아난드는 이 시트의 공식 웹사이트에 “스프레드시트는 모든 것이 필요합니다.“라고 적고 있습니다. 이는 2017년 연구 논문 " 주의력만 있으면 충분하다 “에서 LLM 작동 방식의 기초가 된 트랜스포머 아키텍처를 처음 설명한 것에 대한 경의를 표한 것입니다.

포괄적인 접근 방식을 활용하여 Anand는 GPT-2를 XLSB Microsoft Excel 바이너리 파일 형식으로 성공적으로 캡슐화했으며, 이를 위해서는 최신 Excel 반복을 사용해야 합니다(단, 웹 기반 반복과 호환되지 않음). 이 프로세스는 API 호출을 통해 원격 AI 서비스에 액세스하지 않고 전적으로 로컬에서 작동합니다.

스프레드시트에는 완전한 AI 언어 모델이 포함되어 있지만 ChatGPT처럼 채팅할 수는 없습니다. 대신 사용자는 다른 셀에 단어를 입력하면 거의 즉시 다른 셀에 표시되는 예측 결과를 볼 수 있습니다. GPT-2와 같은 언어 모델은 다음 토큰 예측 을 수행하도록 설계되었음을 기억하세요. 즉, 가장 가능성이 높은 텍스트로 입력(프롬프트라고 하며 토큰이라는 청크로 인코딩됨)을 완료하려고 시도합니다. 예측은 문장의 연속이거나 소프트웨어 코드와 같은 기타 텍스트 기반 작업일 수 있습니다. Anand의 Excel 파일에 있는 여러 시트를 통해 사용자는 이러한 예측이 진행되는 동안 내부에서 어떤 일이 벌어지고 있는지 파악할 수 있습니다.

스프레드시트는 단 10개의 토큰만 입력할 수 있도록 제한되어 있으며, 이는 GPT-4 Turbo의 실질적인 컨텍스트 창인 128,000개의 토큰보다 훨씬 작습니다. 그러나 이러한 제약이 대규모 언어 모델(LLM)과 관련된 기본 개념을 설명하는 능력에 영향을 미치지는 않습니다. 아난드가 YouTube에서 무료로 제공하는 포괄적인 교육용 동영상 콘텐츠를 통해 설명한 것처럼 말이죠.

다양한 작업에 대한 유일한 솔루션으로 스프레드시트 소프트웨어를 활용하는 방법에 대한 이만 아난드의 교육용 동영상으로, YouTube 튜토리얼에서 아난드가 프레젠테이션을 통해 시연합니다.

플랫폼에서 진행한 인터뷰에서 아난드는 프로젝트를 시작하게 된 동기를 공유했습니다. 그는 개인적인 흥미와 트랜스포머 아키텍처에 대한 포괄적인 이해를 얻고자 하는 욕구에서 이 프로젝트에 착수했다고 설명했습니다. 아난드는 “컴퓨터 공학 학위를 취득한 이후 현대 인공지능 환경은 크게 발전했고, 그 기본 메커니즘에 대한 강력한 인지 프레임워크를 개발하기 위해 핵심 원리를 다시 살펴보고 싶다는 생각이 들었습니다.“라고 말했습니다.

원래는 자바스크립트로 GPT-2를 다시 만들려고 했지만, 스스로를 “스프레드시트 중독자"라고 부를 정도로 스프레드시트를 좋아한다고 말합니다. 그는 데이터 과학자 제레미 하워드의 fast.ai 과 전 OpenAI 엔지니어 안드레이 카르파티의 AI 튜토리얼 에서 영감을 얻었다고 합니다.

Karpathy의 동영상을 보면서 저는 GPT가 주로 스프레드시트와 유사한 대형 계산 그래프로 구성되어 있다는 것을 알게 되었습니다. 제레미가 강의에서 스프레드시트를 자주 활용하여 복잡한 개념을 보다 쉽게 이해할 수 있게 하는 방법을 높이 평가하면서 이 깨달음은 저에게 큰 반향을 불러일으켰습니다. 이 개념에서 영감을 받아 저는 스프레드시트 안에 GPT-2의 전체 내용을 복제할 수 있는 가능성을 고려했습니다.

GPT-2와 같은 대규모 언어 모델을 스프레드시트 환경에 통합하는 것과 관련된 어려움에 대해 문의했을 때, 대담자는 알고리즘에 관련된 주요 수학적 계산으로 인해 구현이 비교적 간단하다고 설명했습니다. 그러나 그는 학습 과정에서 필수적인 단계인 텍스트 데이터를 숫자 형태로 변환(토큰화라고 함)하는 작업은 산술 계산이 아닌 텍스트 처리에 의존하기 때문에 상당한 장애물이 될 수 있다고 인정했습니다. 이러한 측면은 기존 프로그래밍 언어를 사용하여 더 효율적으로 실행할 수 있지만, 인터뷰 참여자는 스프레드시트를 사용하면 추가되는 복잡성을 궁극적으로 보완할 수 있는 몇 가지 이점이 있다고 제안했습니다.

프로젝트 진행 중 어려움에 직면한 아난드는 복잡한 문제를 해결하고 알고리즘의 복잡성을 설명하는 데 도움이 되는 고급 GPT-2 반복의 지원을 요청했습니다. 그러나 그는 시스템이 가끔 부정확한 정보를 생성하는 경우가 있어 철저한 검증이 필요하다는 것을 알게 되었습니다.

GPT-2 다시 타다

이 모든 성과는 2019년 11월 OpenAI 이 GPT-2의 신경망 가중치와 소스 코드 을 공개했기 때문에 가능했습니다.이 특정 모델이 교육용 스프레드시트로 구워진 것은 특히 흥미로운데, 2019년 2월에 발표되었을 때 OpenAI는 GPT-2가 “기만적이고 편향적이거나 모욕적인 언어를 대규모로 생성하는 데 사용될 수 있는” 가능성을 보고 공개를 두려워했기 때문입니다.

2019년 11월에 로컬 운영에 필요한 가중치 파일을 포함한 완전한 GPT-2 모델을 공개했지만, 후속 모델인 GPT-3은 2020년에 출시될 때 가중치를 포함한 공개 릴리스가 승인되지 않았습니다. 대신, GPT-3의 수정된 반복이 2년 후인 2022년에 도입된 ChatGPT의 첫 번째 버전의 토대가 되었습니다.

아난드는 2023년 10월 시애틀에서 열린 AI 팅커러스 행사에서 “스프레드시트 하나면 충분하다"는 개념을 선보였습니다.

아난드의 스프레드시트 구현에 사용된 계산 아키텍처는 ‘GPT-2 Small’을 기반으로 하며, 이 변형은 15억 개의 매개변수가 반복되는 GPT-2와 비교할 때 상대적으로 적은 1억 2,400만 개의 매개변수가 특징인 ‘GPT-2 Small’을 기반으로 합니다. 이렇게 매개변수 규모를 줄임으로써 1,750억 개의 매개변수를 합친 엄청난 용량을 자랑하는 GPT-3와 같은 최신 대형 언어 모델의 광범위한 규모에 대한 대안이 될 수 있습니다. 이러한 특정 구성은 현재 AI 발전의 맥락에서 ‘대규모’ 언어 모델로 분류하기에 적절하지 않을 수 있지만, 그럼에도 불구하고 2019년 한 해 동안 혁신의 정점을 찍었습니다.

GPT-2가 포함된 스프레드시트 은 GitHub 에서 다운로드할 수 있지만 용량이 약 1.2GB라는 점에 유의하세요. 아난드는 이 스프레드시트가 복잡하기 때문에 특히 Mac에서 Excel이 자주 잠기거나 충돌할 수 있으므로 Windows에서 실행하는 것이 좋다고 말합니다. 그는 자신의 웹사이트에 “Excel의 수동 계산 모드와 Windows 버전의 Excel(Windows 디렉터리 또는 Mac의 Parallels를 통해)을 사용할 것을 적극 권장합니다.“라고 썼습니다.

이 특정 프로젝트에는 처음에는 Google 스프레드시트의 활용이 고려되었지만, 그 한계로 인해 Microsoft Excel로의 전환이 필요하게 되었습니다. Google 스프레드시트의 범위 내에서 모델을 조정하기 위해 노력하고 있지만, 모든 구성 요소를 단일 파일에 넣을 수 있는 가능성은 점점 더 희박해 보입니다.