신경망 훈련의 미래: 하이퍼파라미터 스케일링을 위한 μ-트랜스퍼에 대한 경험적 인사이트
대규모 신경망 아키텍처는 자연어 처리와 컴퓨터 비전 작업 모두에서 널리 사용되고 있지만, 초기 설정과 학습 속도 조정은 일반적으로 시행착오 접근 방식을 사용하므로 조사 및 모델 규모에 따라 불일치가 발생할 수 있습니다. 이와 관련하여 µP(µ-Parameterization) 방법은 확장 가능한 가이드라인을 통해 이러한 중요한 측면을 체계적으로 조절할 수 있는 수단을 제공함으로써 소규모 네트워크와 대규모 네트워크 간에 하이퍼파라미터를 원활하게 전송할 수 있게 해줍니다. 그럼에도 불구하고 µP의 광범위한 적용 가능성은 고된 기술 실행, 다양한 변수, 완전히 이해하기 어려운 관련 이론적 토대 때문에 여전히 제약을 받고 있습니다.
미세 섭동(μP)에 대한 현재 연구 상태는 아직 규모 확대 시 그 효과를 입증하는 실질적인 경험적 증거를 제공하지 못하고 있습니다. 이로 인해 이러한 확장 시 초파라미터의 보존과 분리된 중량 붕괴와 같은 기존 방법과 원활하게 통합될 수 있는지에 대한 우려가 제기되고 있습니다. μP를 채택한 일부 연구에도 불구하고 추가적인 탐색이 필요한 미답변 문의가 여전히 존재합니다.
텐서 프로그램 시리즈에서 선보인 마이크로프로세서(µP)는 제로 샷 하이퍼파라미터 전송이 가능했지만, 대규모 변압기에 적용했을 때 안정성과 확장성에 대한 우려가 제기되었습니다. 최근 연구에서 하이퍼파라미터 튜닝을 위한 µP의 사용에 대해 조사했지만, 대규모 모델에 대한 효과를 뒷받침하는 경험적 증거가 부족합니다. 일부에서는 µ-Transfer를 대안으로 활용할 것을 제안한 반면, 다른 연구에서는 계산 리소스를 기반으로 한 스케일링 법칙이나 아키텍처 수정과 같은 대체 방법을 옹호하기도 합니다. 또한 자동 그라데이션 하강과 하이퍼그라데이션은 학습 속도 최적화를 위한 더 복잡한 옵션을 제공하지만 µP에 비해 비용 때문에 접근성이 떨어질 수 있습니다.
본 연구에서는 변압기에 적용되는 미세 섭동(µP)에 대해 살펴보고, 특히 폭의 차원에 중점을 두고 있습니다. 이 방법은 변압기의 폭에 집중하여 더 작은 모델과 더 큰 모델 간에 하이퍼파라미터를 쉽게 전송할 수 있습니다. 제안된 스케일링 규칙을 통해 초기화 분산 및 아담 학습률과 관련된 문제를 해결합니다. 이러한 맥락에서 모델 파라미터에 대한 특정 가정이 이루어지며, 후속 스케일링 규칙은 기본 학습률 알파에 의해 결정됩니다. 또한 주의력 척도 타우^-1에 대한 조정이 성과에 미치는 영향과 전달된 지식의 정도를 모두 고려하여 그 영향에 대해 조사합니다.궁극적으로 µP의 구현은 신경망 매개변수 조정을 위한 구조화된 프레임워크를 제공합니다.
이 실험에서는 ‘게인’이라고 하는 훈련 가능한 스케일 벡터가 심층 신경망의 학습 속도 전이성에 미치는 영향을 루트 평균 제곱 규범(RMSNorm)을 사용할 때 조사합니다. 그 결과, 게인에 적용된 Θ(1) 스케일링 계수로 인해 최적의 학습 속도를 안정적으로 전송하는 것이 방해받으며, 이는 이러한 모델의 전반적인 품질에 부정적인 영향을 미친다는 사실이 밝혀졌습니다. 또한 초기화되지 않은 쿼리 예측을 활용하면 전이율이 향상되고 손실이 약간 감소합니다. 기존의 관심도 척도를 사용하는 것은 성능에 해로운 것으로 보입니다. 곱셈 비선형성을 도입하면 다른 요인으로 인한 잠재적 방해에도 불구하고 학습률을 성공적으로 전달할 수 있습니다. 반면, Lion 옵티마이저는 기본 학습률을 효과적으로 전달하지 못하는 것으로 나타났습니다
요약하면, 이 연구는 트랜스포머의 학습 계수를 전달할 때 µ-Transfer의 신뢰성을 조사했습니다. 아키텍처 조정 및 배치 크기 변경과 같은 많은 경우에서 µP는 효과를 입증했습니다. 하지만 수정 가능한 이득 매개변수나 매우 광범위한 주의 규모를 사용할 때는 µ-Transfer가 흔들렸습니다. 간단한 µP 전략은 트랜스포머에서 사용하는 기존의 파라미터화 방식에 비해 우수한 결과를 가져왔습니다. 또한, µ-Transfer가 광범위한 모델에서 이상적인 학습률을 예측하는 능력도 주목할 만했습니다. 이러한 발견은 하이퍼파라미터 전송 영역의 향후 연구에 시사하는 바가 있습니다.
논문 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들을 위해 저희 뉴스레터를 구독해 주시면 감사하겠습니다. 뉴스레터는 소중한 고객들을 더욱 만족시킬 수 있는 최신 개발 및 제품에 대한 정보를 얻을 수 있는 훌륭한 플랫폼이 될 것입니다.
4만 명이 넘는 회원을 보유한 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
인공 지능에 관심이 있는 150만 명 이상의 방대한 잠재 고객에게 도달하는 데 관심이 있으신가요? 저희 조직은 이러한 목표를 달성하는 데 도움이 되는 서비스를 기꺼이 제공합니다. 원하는 결과를 달성하기 위해 언제든지 저희와 협력해 주세요.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 및 이 분야의 수많은 선도 기관의 저명한 전문가들이 열심히 읽고 있는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.