화웨이와 북경 U의 디장: 교육 비용의 1/50로 LLaMA2-7B 성능을 달성하는 트랜스포머
Transformer 아키텍처는 음성 인식, 기계 번역, 문서 요약 등의 분야에서 괄목할 만한 성공을 거두며 다양한 분야에서 필수적인 리소스로 자리 잡았습니다. 그러나 더 복잡한 문제를 해결하기 위해 모델의 규모를 확장할 경우 상당한 계산 오버헤드를 수반하는 등 그 성능에 따라 달라집니다.
트랜스포머의 계산 부담을 완화하기 위한 노력의 일환으로 선형 주의 메커니즘을 잠재적 해결책으로 검토하는 데 대한 관심이 높아지고 있습니다. 그러나 이러한 메커니즘을 보강하는 과정에는 상당한 재교육이 필요한 경우가 많으며, 대규모 언어 모델에 포함된 매개변수의 수가 상당하기 때문에 이는 어려운 일이 될 수 있습니다.
컴팩트 커널화를 통한 효율적인 대규모 언어 모델"은 화웨이의 노아의 방주 연구소와 북경대학교의 구성원들로 구성된 공동 연구팀이 수행한 연구로, 계산 복잡성을 낮게 유지하면서 대규모 언어 모델을 구축하는 과정을 간소화하기 위해 주파수 도메인 커널화 기술을 활용하는 DiJiang이라는 혁신적인 방법을 도입했습니다. 이 새로운 접근 방식을 사용하면 일반적인 학습 비용의 극히 일부만 사용하면서도 여러 벤치마크 테스트에서 LLaMA2-7B와 유사한 성능을 보이는 효율적인 모델을 만들 수 있습니다.
연구자들은 처음에 광범위한 모델의 계산 부담을 완화하기 위한 빠른 주의 근사화 전략의 능력을 인정했습니다. 그럼에도 불구하고 이러한 접근 방식은 광범위한 범위를 가진 언어 모델의 한계 내에서 철저히 평가되지 않았습니다. 연구팀은 일반적인 선형 주의 메커니즘에 대한 철저한 평가를 수행하여 몬테카를로 기법에 기반한 샘플링이 근사치 오류의 주요 원인임을 확인했습니다.
이 문제를 해결하기 위해 저자는 주파수 도메인 커널화를 통합한 가중치 부여 준 몬테카를로 샘플링 방법을 제안합니다. 이산 코사인 변환(DCT)을 활용하여 트랜스포머의 쿼리와 키를 공간 영역에서 주파수 영역으로 변환하면 주의 메커니즘 내에서 소프트맥스 연산을 효과적으로 제거하여 계산 복잡성을 선형성으로 줄일 수 있습니다.
이 팀의 제안은 이론적, 경험적 증거에 의해 뒷받침됩니다. 연구팀은 주파수 영역 매핑이 이론적으로 원래의 주의 메커니즘의 근사치로 간주될 수 있음을 보여줍니다.실제로 DiJiang 모델은 기존 Transformer와 동일한 성능을 제공하면서도 훈련에 훨씬 적은 시간(10분의 1 미만)이 소요되고 추론 시간(약 10배)이 훨씬 빨라졌습니다.
DiJiang은 효율적이고 확장 가능한 트랜스포머 기반 모델 개발의 중요한 진전을 의미하며, 광범위한 자연어 처리 애플리케이션과 그 이상의 분야에서 발전을 이끌 수 있는 잠재력을 지니고 있습니다.
코드는 프로젝트의 GitHub 에서 확인할 수 있습니다. DiJiang: 컴팩트 커널화를 통한 효율적인 대규모 언어 모델 논문은 arXiv 에 있습니다.