언어 모델을 300배까지 가속화할 수 있는 새로운 기술
취리히 연방공과대학(ETH Zurich) 연구원들이 신경망의 속도를 크게 높일 수 있는 새로운 기술 을 개발했습니다. 이들은 추론 과정을 변경하면 이러한 네트워크의 계산 요구 사항을 크게 줄일 수 있음을 입증했습니다.
BERT는 여러 언어 애플리케이션에서 활용되는 트랜스포머 모델로, 99%가 넘는 계산 감소율로 놀라운 결과를 입증했습니다. 또한 이 획기적인 방법은 GPT-3와 같은 다른 트랜스포머 모델로 확장할 수 있으며, 이를 통해 신속하고 풍부한 언어 처리의 잠재력을 실현할 수 있습니다.
빠른 피드포워드 네트워크
대규모 언어 모델의 기반이 되는 트랜스포머는 주의 계층과 피드포워드 계층과 같은 여러 계층으로 구성됩니다. 모델 파라미터의 상당 부분을 차지하는 후자는 모든 뉴런과 입력 차원 값을 곱해야 하기 때문에 상당한 계산 리소스를 필요로 합니다.
저자들의 연구는 피드포워드 레이어의 모든 뉴런이 각 입력에 대한 추론 단계에서 활성화될 필요는 없음을 보여줍니다. 이를 위해 기존 피드포워드 레이어의 대안으로 ‘고속 피드포워드’ 레이어(FFF)를 도입할 것을 제안합니다.
FFF는 조건부 행렬 곱셈(CMM)이라는 수학적 절차를 사용하며, 이는 기존의 피드포워드 신경망에서 일반적으로 사용되는 고밀도 행렬 곱셈(DMM)을 대체합니다.
이중 메모리 네트워크(DMM)는 네트워크 내의 모든 뉴런에서 모든 입력 매개변수 곱을 계산해야 하므로 리소스를 많이 사용하고 시간이 많이 소요될 수 있습니다. 반대로, 콘트라스트 메모리 모듈(CMM)은 각 입력에 소수의 뉴런만 있으면 처리 작업을 효율적으로 완료할 수 있는 분산 방식을 통해 추론을 수행합니다.
고속 푸리에 변환(FFT)은 각 연산에 대해 특정 신경망을 정확하게 타겟팅함으로써 계산 부담을 효과적으로 최소화하여 언어 모델 성능을 신속하고 향상시킬 수 있습니다.
작동 중인 고속 피드포워드 네트워크
연구진은 Google의 BERT 트랜스포머 모델을 변형한 FastBERT를 만들어 획기적인 접근 방식을 입증하고자 했습니다. 이들은 매개 피드포워드 레이어를 패스트버트에서 빠른 피드포워드 레이어로 교체함으로써 패러다임의 전환을 가져왔습니다. 빠른 피드포워드 레이어는 뉴런을 조화로운 바이너리 트리로 구성하여 입력에 따라 하나의 경로만 수행합니다.
연구원들은 FastBERT의 성능을 평가하기 위해 일반 언어 이해 평가( GLUE ) 벤치마크의 여러 작업에 대해 다양한 변형을 미세 조정했습니다. GLUE는 자연어 이해 시스템을 훈련, 평가 및 분석하기 위해 설계된 포괄적인 데이터 세트 모음입니다.
결과는 매우 고무적이었는데, FastBERT는 동일한 훈련 방법을 사용하는 대규모 BERT 모델과 비슷한 성능을 보였기 때문입니다. 놀랍게도 단 하루 만에 A6000 GPU를 사용하여 훈련된 FastBERT의 변형 모델은 오리지널 BERT 모델의 96.0% 이상의 효율성을 유지했습니다. 또한, 이러한 FastBERT 변형은 피드포워드 뉴런의 극히 일부(0.3%)만을 사용하면서 기본 BERT 모델의 성능과 일치하는 탁월한 성과를 달성했습니다.
연구진은 확장형 언어 모델에 빠른 피드포워드 네트워크를 통합하는 것이 성능 가속화에 상당한 잠재력을 가지고 있다고 판단하여 이를 긍정적으로 전망하고 있습니다. 예를 들어, GPT-3에서 각 트랜스포머 단계에 존재하는 피드포워드 네트워크는 49,152개의 뉴런 요소로 구성되어 있습니다.
연구자들은 이 네트워크를 훈련할 수 있다면 최대 심도가 15이고 65,536개의 뉴런으로 구성된 신속한 피드포워드 신경망으로 대체할 수 있지만, 추론 과정에서는 이 중 16개의 뉴런만 활용한다는 것을 관찰했습니다. 이는 GPT-3에서 발견되는 전체 뉴런 수의 약 0.03%에 해당합니다.
개선의 여지
기존 피드포워드 신경망의 기반이 되는 고밀도 행렬 곱셈의 성능을 최적화하기 위해 하드웨어 및 소프트웨어 구성이 크게 개선되었습니다.
고밀도 행렬 곱셈의 최적화는 메모리 시스템, 프로세서, 명령어 세트, 소프트웨어 알고리즘 전반에 걸쳐 구현을 위해 광범위한 노력을 기울인 계산 발전의 초석이 되어 왔습니다. 그러나 이러한 개발의 대부분은 복잡한 특성이나 전략적 고려 사항으로 인해 비밀에 싸여 있으며, 그 결과 사용자들은 주로 강력하지만 제한적인 프로그래밍 인터페이스를 통해 접근할 수 있었습니다.
반면, 현재로서는 빠른 피드포워드 신경망의 기본이 되는 조건부 행렬 곱셈을 실용적으로 구현하거나 내재적으로 구현할 수 있는 방법이 존재하지 않습니다. 또한 널리 채택된 딥러닝 플랫폼도 단순한 이론적 복제를 넘어 CMM을 효과적으로 구현할 수 있는 수단을 제공하지 않습니다.
연구진은 CPU와 GPU 명령어 세트에 모두 의존하는 CMM 연산의 독창적인 실행을 만들었으며, 그 결과 추론 과정에서 78배의 상당한 성능 향상이 이루어졌습니다.
현재 기술 제약으로 인해 언어 모델 추론의 가속화는 약 3배로 제한되어 있지만, 개발자들은 향후 컴퓨팅 리소스와 최적화된 알고리즘의 발전으로 처리 속도를 300배 이상 향상시킬 수 있는 잠재력을 가지고 있다고 주장합니다. 이러한 개선은 이러한 모델이 직면한 주요 장애물 중 하나, 즉 주어진 시간 내에 한정된 수의 토큰을 생산할 수 있는 능력을 효과적으로 해결할 수 있습니다.
연구진은 이번 연구가 디바이스 프로그래밍 인터페이스의 구성 요소로서 조건부 신경 실행을 구현하는 데 미칠 잠재적 영향에 대해 낙관적인 견해를 밝혔습니다. 연구진은 BERT 기반 모델 규모에서 341배의 속도 향상을 약속한 이 개발이 이 분야의 추가 탐색과 혁신에 중요한 촉매제 역할을 할 수 있다고 믿습니다.
이 연구는 대규모 자연어 처리 모델에서 발생하는 계산 및 메모리 제약을 해결하여 더 풍부하고 강력한 인공 지능 시스템 개발을 촉진하는 것을 목표로 하는 포괄적인 이니셔티브의 필수 구성 요소로 구성되어 있습니다.