스탠포드 연구진이 고정된 기본 모델에서 작동하고 숨겨진 표현에 대한 작업별 개입을 학습하는 표현 미세 조정(ReFT) 방법군을 제안합니다.
사전 학습된 언어 모델은 새로운 애플리케이션이나 작업을 수용하기 위해 미세 조정이라는 프로세스를 통해 개선되는 경우가 많습니다. 이 접근 방식을 사용하면 최소한의 도메인별 정보로 효율적으로 조정할 수 있지만, 사전 학습된 모델이 광범위할 경우 비용이 너무 많이 들 수 있습니다.
매개변수 효율적인 미세 조정 기법은 가중치의 일부만 업데이트하여 메모리 소비와 훈련 시간을 최소화하는 대안적인 솔루션을 제시합니다. 파라미터 효율적 미세 조정 접근 방식에 일반적으로 사용되는 어댑터는 선택한 가중치 세트에 추가하거나 고정된 기본 모델과 동시에 실행할 수 있는 수정 사항을 쉽게 학습할 수 있게 해줍니다. 최근에 개발된 LoRA 및 그 파생 모델과 같은 향상된 기능은 어댑터 학습 단계 전반에 걸쳐 낮은 순위의 근사치를 사용하여 이 프로세스를 더욱 간소화했습니다.
가중치 수정은 기존의 확률론적 편집 및 변환(PEFT) 기법에서 두드러진 특징이었지만, 이전 연구에 따르면 표현은 의미적으로 풍부한 정보를 담고 있다고 합니다. 이러한 연구 결과를 바탕으로 스탠포드 대학교와 Pr(Ai)2R 그룹의 연구원들은 단순히 가중치를 조정하는 대신 표현을 세분화하는 데 초점을 맞춘 표현 미세 조정(ReFT) 접근법을 대안으로 도입했습니다.
훈련 예시가 적은 추론(ReFT) 기법은 모델 파라미터를 수정하지 않고 표현 프로세스의 일부에만 영향을 줄 수 있는 개입을 훈련합니다. 이 접근 방식은 언어 모델의 해석 가능한 프로세스에 대한 연구에서 영감을 얻은 것으로, 특정 표현에 개입을 적용하여 근본적인 원인을 밝히고 추론 중에 예측을 유도합니다.
ReFT 계열의 뛰어난 예 중 하나는 저순위 선형 하위공간 ReFT(LoReFT)로, 저차원 하위공간 내에 존재하는 잠재적 표현을 축소된 순위 행렬에 투영하여 작동합니다. 분산 정렬 검색(DAS)과 같은 기술을 활용함으로써 LoReFT는 기존 PEFT 접근 방식에 비해 훨씬 적은 수의 매개변수로 여러 벤치마크에서 우수한 성능을 달성합니다. 이러한 결과는 ReFT 방식이 가중치에 의존하는 PEFT에 대한 보다 유용하고 강력한 대안을 제공할 수 있음을 나타내며, 다양한 아키텍처와 애플리케이션 영역에서 더 폭넓은 조사가 필요합니다.
ReFT에 대한 향후 연구에서는 다양한 모델 아키텍처와 시각 및 텍스트 모델에 대한 적용 가능성을 검토하고 최적의 하이퍼파라미터를 찾는 프로세스를 간소화할 것입니다. 또한, 특정 작업에 맞는 보다 강력한 전략을 파악하고 발견되지 않은 잠재 공간의 잠재력을 조사하여 확장 가능성을 모색할 것입니다.ReFT가 도입한 혁신적인 접근 방식은 신경망 해석 가능성에 대한 이해를 풍부하게 할 뿐만 아니라 고립된 뉴런 분석에만 집중하는 기존 방법에서 벗어나 더 넓은 분야의 지식을 향상시키는 데도 도움이 됩니다.
물리 기반 진화형 특징 변환기(PEFT)와 표현 학습 기반 특징 변환기(ReFT) 모두에 대한 성능 지표를 평가할 때는 비교 목적으로 표준화된 프로세스를 구현하는 것이 중요합니다. 여기에는 컴퓨팅 리소스나 소요 시간 측면에서 일치하는 비교를 수행하는 동시에 테스트 데이터를 사용하여 어떤 형태의 모델 선택이나 매개변수 조정도 피하는 것이 포함됩니다. 이러한 조치는 과적합을 방지하고 실제 조건에서 모델 성능의 정확한 평가를 보장하기 위해 필요합니다.
논문 및 Github 를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들께는 최신 성과와 발전 상황을 적시에 알 수 있는 훌륭한 수단인 뉴스레터 구독을 진심으로 권해드립니다.
4만 명 이상의 회원을 보유한 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
인공 지능에 열정을 가진 150만 명 이상의 방대한 잠재 고객에게 도달하는 데 관심이 있으신가요? 저희 조직은 이러한 목표를 달성하는 데 도움이 될 수 있는 특별한 협업 기회를 제공합니다. 크리테오와 협력하여 크리테오의 광범위한 네트워크를 활용하여 참여도가 높은 잠재고객에게 다가갈 수 있습니다.
구글, 엔비디아, 메타, 스탠포드 대학교, 매사추세츠 공과대학, 마이크로소프트 등 저명한 기관의 저명한 학자들이 열독하는 활발한 AI 연구 뉴스레터를 구독하세요.