Contents

DiJiang: 기존 변압기 모델에 내재된 계산 비효율성을 해결하기 위해 설계된 획기적인 주파수 도메인 커널화 방법

Contents

Transformer 아키텍처는 문서 생성/요약, 기계 번역, 음성 인식 등 다양한 NLP 작업에서 탁월한 성능을 달성하여 이 분야의 선도적인 접근 방식으로 자리 잡았습니다. 최근에는 Transformer의 더 큰 버전인 대규모 언어 모델(LLM)이 확장된 구조를 통해 점점 더 복잡한 문제를 해결할 수 있는 능력으로 각광받고 있습니다. 그러나 이러한 LLM은 모든 토큰 간의 상호 상관관계를 포함하는 주의 메커니즘을 필요로 하므로 확장성이 증가함에 따라 계산 요구가 높아집니다. 이러한 모델의 리소스 집약적 특성은 스마트폰이나 로봇과 같이 기능이 제한된 플랫폼에 배포하려고 할 때 상당한 장애물이 됩니다.

최근 연구에서는 보다 효율적인 아키텍처에 대한 필요성이 증가함에 따라 트랜스포머 모델을 개선하는 것이 강조되고 있습니다. 모델 가지치기, 양자화, 주의 메커니즘 개선 등 다양한 기법이 연구되고 있습니다. 이러한 제안 중 주의 메커니즘을 단순화하는 것이 유망한 접근 방식으로 주목받고 있습니다. 이 전략은 복잡한 이차 연산을 보다 관리하기 쉬운 선형 스케일로 줄임으로써 실행 가능한 솔루션을 제시합니다. 그럼에도 불구하고 트랜스포머를 최적화하려면 특히 주의력 구성 요소와 관련하여 광범위한 재교육이 필요한 경우가 많습니다. 특히 대규모 모델의 경우 프로세스를 완료하는 데 상당한 시간과 컴퓨팅 리소스가 필요하기 때문에 재교육이 어려울 수 있습니다.

최근 북경대학교와 화웨이의 노아의 방주 연구소 소속 학자들이 실시한 조사에서는 빠른 주의 계산으로 인한 문제를 해결하기 위해 대규모 언어 모델 내에서 선형 주의 메커니즘을 구현하는 기존 방법에 대한 철저한 검토가 수행되었습니다. 이 연구에서는 몬테카를로 샘플링이 이러한 근사 전략에서 오류의 주요 원인으로 밝혀졌습니다.

자연어 처리 영역에서 혁신적인 주파수 영역 커널화 기술인 DiJiang을 소개합니다. 가중치가 부여된 준 몬테카를로 샘플링의 한 형태를 활용하는 이 최첨단 방법은 이산 코사인 변환(DCT)을 사용하여 Transformer의 쿼리와 키를 주파수 도메인으로 효과적이고 정확하게 변환합니다. 주의 메커니즘에서 소프트맥스 연산을 제거함으로써 주의 계산이 간소화되어 바닐라 트랜스포머를 선형 주의 모델에 적용할 때 훈련 비용을 절감할 수 있습니다.

DiJiang은 훈련 비용을 크게 절감하고 추론 속도를 최대 10배까지 높이면서 기존 Transformer와 동등한 성능을 입증했습니다.또한 정확도 저하 없이 이러한 개선 사항을 달성합니다. 이 혁신적인 접근 방식은 다양한 자연어 처리 작업에 폭넓게 적용할 수 있으며 효율적이고 확장 가능한 Transformer 기반 모델을 만드는 데 있어 중요한 진전을 이뤘습니다.

논문 Github 를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들께는 저희의 최신 노력과 발전 상황을 적시에 알릴 수 있는 좋은 기회인 뉴스레터 구독을 진심으로 권해드립니다.

39,000명 이상의 회원을 자랑하는 Reddit의 활발한 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

구글, 엔비디아, 메타, 스탠포드, MIT, 마이크로소프트 등 권위 있는 기관의 저명한 전문가들이 구독하는 가속화된 AI 연구 뉴스레터에 빠져보세요.