구글 AI, 트랜스포머팸을 제안하다: 피드백 루프를 활용하여 신경망이 잠재적 표현을 처리할 수 있도록 하는 새로운 트랜스포머 아키텍처를 소개합니다.
트랜스포머 아키텍처에 내재된 폐쇄 루프 메커니즘을 통해 주의 프로세스를 기본 표현 구조와 통합
Google의 연구팀은 네트워크의 숨겨진 표현에 주의 메커니즘이 집중하여 작업 기억의 개발을 촉진하는 피드백 루프를 통합하는 혁신적인 트랜스포머 아키텍처인 트랜스포머FAM을 개발했습니다. 이 획기적인 접근 방식은 모델 크기(10억 개에서 240억 개의 매개변수 범위)에 관계없이 긴 컨텍스트 작업에서 트랜스포머의 성능을 향상시킬 뿐만 아니라 추가적인 가중치 추가 없이 기존 모델과 원활하게 통합할 수 있습니다. TransformerFAM의 놀라운 특징은 과거 정보를 무한정 보존할 수 있어 대규모 언어 모델에 대한 무한히 긴 입력 시퀀스를 효과적으로 관리할 수 있다는 점입니다. 또한 이 새로운 기술은 새로운 가중치를 도입할 필요가 없기 때문에 미세 조정 중에 이전에 학습된 체크포인트를 재사용할 수 있습니다.
트랜스포머 내에서 피드백 루프를 통합하려는 이전의 노력은 주로 상위 계층 노드의 출력을 해당 하위 또는 중간 노드로 전달했지만, 이 접근 방식은 표현의 잠재적 불일치를 해결하지 못했습니다. 일부 연구에서는 블록 단위로 정보를 압축하려고 시도했지만 단계 간 영구적인 전송을 보장하지 못했습니다. 확장된 시퀀스에서 작동하는 트랜스포머 모델과 관련된 이차적 복잡성을 해결하기 위해 스파스 주의 및 선형화된 근사치와 같은 대체 기법이 고려되었습니다. 또한 MLP 믹서, 상태 공간 모델 등 기존의 주의 기반 아키텍처에 대한 대안도 등장했습니다. TransformerFAM 프레임워크는 글로벌 작업 공간 이론에서 영감을 받아 다양한 데이터 양식을 처리할 수 있는 통합된 주의 메커니즘을 지향합니다.
계산 기능을 강화하거나 Big Bird에서 처음 제안한 슬라이딩 윈도우 주의(SWA)를 구현합니다. SWA는 입력을 세그먼트로 나누어 각 블록의 데이터를 보존하며, 이를 블록 슬라이딩 윈도우 어텐션(BSWA)이라고 합니다. 기존 SWA와 달리 BSWA는 이전 키와 값을 숨기지 않고 링 버퍼 내부의 모든 세부 사항을 고려합니다. BSWA는 블록 크기와 메모리 파티션이라는 두 가지 주요 매개변수를 조정함으로써 고려되는 정보의 범위와 폭을 조절합니다. BSWA는 일반적인 트랜스포머에 내재된 이차적 복잡성에 비해 선형 확장성을 보여주지만, 제한된 수신 범위로 인해 장기 종속성을 적절히 처리하려면 추가적인 발전이 필요합니다.
FAM은 BSWA의 블록 구조를 활용하여 앞서 언급한 문제를 해결합니다. 가상 활성화라고 하는 각 블록 내 피드백 활성화를 통합하여 네트워크 전체에 글로벌 컨텍스트 정보를 동적으로 전송할 수 있습니다. 이 설계는 통합 관심, 점진적 업데이트, 정보 압축, 광범위한 컨텍스트 보존과 같은 필수 기준을 충족합니다. FAM을 통합하면 표현 기능이 향상되고 BSWA가 달성할 수 있는 것 이상의 포괄적인 컨텍스트 세부 정보를 전파할 수 있습니다. 처음에는 피드백 메커니즘으로 인한 잠재적인 비효율성에 대한 우려가 제기되었지만, 블록 내에서 사용되는 벡터화된 지도 기반 자가 주의 메커니즘은 메모리 사용량과 훈련 속도에 영향을 최소화하면서 효율적인 훈련을 보장하며 TransformerBSWA의 성능과 동등합니다.
영화 ‘메멘토’에서 주인공이 기억상실증에 맞서 싸우는 장면은 현재 대규모 언어 모델(LLM)이 단기 기억과 관련하여 겪는 제약에 대한 은유로 사용됩니다. LLM은 광범위한 장기 저장 용량을 가지고 있음에도 불구하고 주의 집중 기간의 제약으로 인해 제한을 받습니다. 트랜스포머FAM은 신경학적 원천에서 영감을 얻어 주의력 중심의 작업 기억을 활용함으로써 이러한 한계를 극복할 수 있는 접근 방식을 제시합니다. 이 연구는 딥러닝 시스템이 직면한 메모리 문제를 해결할 수 있는 잠재적 수단을 제시하며, 이는 논리적 추론과 같은 더 복잡한 과제를 극복하기 위한 근본적인 단계입니다.
논문을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들께는 여러분의 안목을 더욱 만족시킬 수 있는 최신 노력과 업데이트에 대한 정보를 제공하는 훌륭한 수단인 뉴스레터 구독을 진심으로 권해드립니다.
4만 명이 넘는 회원 수를 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
인공 지능을 활용하는 150만 명의 방대한 잠재 고객에게 다가갈 수 있는 기회가 저희 서비스를 통해 제공됩니다. 함께 협력하여 실현해 보세요.
구글, 엔비디아, 메타, 스탠포드, MIT, 마이크로소프트 등 저명한 기관의 학자들이 인정하는 활발한 AI 연구 뉴스레터를 즐겨보세요.