Contents

예일대학교와 구글의 하이퍼어텐션: 선형에 가까운 최상의 시간 보장을 통한 장기적인 컨텍스트 주의 집중

Contents

트랜스포머는 다양한 학습 작업에 적용되어 수많은 영역에 큰 영향을 미쳤습니다. 그러나 제한된 확장성 문제는 이러한 모델에 상당한 장애물로 작용했습니다. 특히 주의 메커니즘 계산과 관련된 계산 복잡성으로 인해 시간 및 메모리 요구 사항이 2진법으로 증가하여 확장된 컨텍스트 길이를 효율적으로 수용하기 위한 트랜스포머 아키텍처의 효과적인 확장을 방해하고 있습니다.

거의 선형에 가까운 시간의 긴 컨텍스트 주의력"은 예일대학교 연구진과 Google Research의 공동 연구로 최첨단 대규모 언어 모델(LLM)에서 확장된 컨텍스트와 관련된 계산상의 어려움을 효과적으로 해결하기 위해 설계된 혁신적인 주의력 메커니즘인 HyperAttention을 소개합니다. 특히 이 접근 방식은 실용적인 효율성과 거의 선형에 가까운 시간 성능 보장을 모두 달성하여 이 분야에서 상당한 도약을 이뤘습니다.

/images/yale-u-googles-hyperattention-long-context-attention-with-the-best-possible-near-linear-time-guarantee.png

본 연구에서는 세 가지 입력 행렬, 즉 쿼리용 Q, 키용 K, 값용 V를 각각 입력 시퀀스 내의 토큰 수와 잠재 표현의 차원에 따라 스케일링해야 하는 주의력 근사화, 특히 도트-제품 변형의 문제를 규명하고자 합니다. 가장 중요한 목표는 필수 스펙트럼 특성을 유지하면서 출력 행렬인 Att를 계산하는 효율적인 방법론을 고안하는 것입니다.

/images/yale-u-googles-hyperattention-long-context-attention-with-the-best-possible-near-linear-time-guarantee-1.png

저자들은 비교적 짧은 시간 내에 대각선 스케일링 행렬에 대한 효과적인 추정자를 설계하는 새로운 방법론을 제시합니다. 또한 서브샘플링 근사법을 통해 소프트맥스 행렬과 값 행렬 사이의 행렬 곱 계산을 신속하게 처리합니다. 연구자들은 KDEformer라고 하는 커널 밀도 추정 프로세스를 개선하여 균일한 샘플링만으로도 필요한 스펙트럼 보증을 충족할 수 있으므로 커널 밀도에 기반한 중요도 샘플링이 필요하지 않다는 것을 보여주었습니다. 이 주목할 만한 단순화는 실용적이고 검증 가능한 선형 시간 알고리즘의 생성에서 정점을 찍습니다.

제안된 방법은 입력 값에 제한이 없거나 안정된 순위에 구속될 필요가 없다는 점에서 주목할 만한 이점을 보여줍니다. 또한 주의 행렬 내 엔트리의 크기나 안정 순위에 관계없이 시간 복잡도 분석과 관련된 복잡한 파라미터를 효과적으로 관리할 수 있습니다.

또한 연구진은 제곱 행 규범의 단방향 샘플링을 통해 커널 임베딩의 필요성을 없애고 안정적인 순위와 관련하여 유사한 스펙트럼 규범 보증을 얻을 수 있다는 사실을 발견했습니다.

/images/yale-u-googles-hyperattention-long-context-attention-with-the-best-possible-near-linear-time-guarantee-2.png /images/yale-u-googles-hyperattention-long-context-attention-with-the-best-possible-near-linear-time-guarantee-3.png /images/yale-u-googles-hyperattention-long-context-attention-with-the-best-possible-near-linear-time-guarantee-4.png

HyperAttention은 실증 실험을 통해 현재의 방법론을 능가하는 것으로 입증되었으며, 플래시어텐션과 같은 최첨단 접근 방식과 비교했을 때 주목할 만한 가속도를 보였습니다. 예를 들어, 32,000개의 토큰으로 구성된 컨텍스트 길이를 활용하고 ChatGLM2에 HyperAttention을 적용한 결과, 추론 시간이 50%나 단축되는 동시에 난해도 수준은 5.6에서 6.3으로 최소한의 증가만 유지했습니다. 또한 인과적 마스킹 조건에서 131,000개의 토큰과 같이 더 큰 컨텍스트가 관련된 상황에서 HyperAttention은 단일 주의 레이어에서 기존 주의 메커니즘에 비해 5배의 놀라운 개선 효과를 제공합니다.

실제로 하이퍼어텐션의 등장은 그동안 트랜스포머의 기능을 저해했던 확장성 제약을 극복하고 확장된 컨텍스트 시퀀스를 관리하는 능력을 향상시키는 데 있어 주목할 만한 진전을 의미합니다. 이 획기적인 개발로 다양한 도메인에서 대규모 언어 모델의 성능과 효율성이 강화되어 실제 사용 사례의 처리 속도도 그에 상응하는 수준으로 향상될 것으로 기대됩니다.

논문 HyperAttention: 거의 선형에 가까운 시간 동안의 긴 컨텍스트 주의 arXiv .