256k 토큰의 긴 컨텍스트를 처리할 수 있는 대규모 언어 모델, LongLLaMA를 만나보세요.
언어 모델 활용을 통해 여러 영역에서 상당한 진전이 있었습니다. 그럼에도 불구하고 방대한 양의 새로운 정보를 이러한 모델에 통합하는 것은 계속해서 장애물이 되고 있습니다. 미세 조정이 보편화되어 있기는 하지만, 이는 힘들고 복잡한 과정이며 새로운 지식을 흡수하는 데 항상 간단한 해결책을 제공하지는 않습니다. 따라서 연구자들은 집중 트랜스포머(FOT)라는 잠재적 해결책을 모색하고 있습니다.
제한된 문맥 길이를 극복하는 주의력을 가진 미세 조정된 원샷 텍스트 분류(FOT) 접근 방식은 언어 모델 내에서 문맥 길이가 충분하지 않은 문제를 해결하고자 합니다. 더 많은 문서가 포함될수록 의미 있는 단어와 의미 없는 단어의 비율이 감소하여 의미 있는 값과 의미 없는 값과 연관된 키워드가 겹치게 됩니다. 이러한 현상을 ‘산만함’ 딜레마라고 합니다. 이 문제를 해결하기 위해, FOT는 k-근접 이웃(kNN) 알고리즘을 활용하여 (키워드, 값) 쌍의 외부 메모리에 액세스할 수 있는 주의 계층의 하위 집합을 사용합니다. 이 메커니즘은 컨텍스트 길이를 효율적으로 확장하고 주의 분산 문제를 해결하는 데 도움이 됩니다.
집중 트랜스포머의 훈련 요법은 대조 학습에서 파생된 기법을 사용합니다. 이 과정에서 기억 주의 단위에는 관련성이 있는 키워드와 관련성이 없는 키워드가 모두 제시되어 서로 다른 텍스트에서 비롯된 부정적인 예를 모방합니다. 이 방법은 의미적으로 서로 다른 정보를 전달하는 키-값 쌍을 구별하는 모델의 능력을 촉진하여 조직을 개선합니다.
연구자들은 망각 기반 원샷 학습(FOT)을 통한 미세 조정을 통해 개선된 OpenLLaMA 모델의 고급 버전인 LONGLAMA라는 새로운 접근 방식을 개발했습니다. 이 혁신적인 기술은 긴 문맥 정보에 대한 제한된 노출로도 학습할 수 있는 능력을 보여주며, 기존 모델과 통합할 수 있습니다. 롱라마를 활용하면 키 검색과 같이 광범위한 문맥 이해가 필요한 작업의 성능을 크게 향상시킬 수 있습니다.
유니티의 연구를 통해 트랜스포머 모델의 역량을 확장하는 데 있어 중요한 장애물, 즉 훈련 중 산만함이 만연해 있다는 사실을 발견했습니다. 이 문제를 해결하기 위해 유니티는 원래 아키텍처의 무결성을 유지하면서 이 문제를 효과적으로 해결할 수 있는 집중형 트랜스포머(FOT)를 고안했습니다. 또한, 기존 모델에 메모리 메커니즘을 통합하여 LongLlama 변형으로 변환하기 위한 구현하기 쉬운 접근 방식을 제공합니다.이러한 향상된 모델은 더 긴 데이터 시퀀스를 처리하는 작업, 특히 광범위한 컨텍스트 내에서 몇 장의 샷으로 구성된 예제에 더 광범위하게 노출되는 작업을 수행할 때 눈에 띄는 성능 향상을 보여줍니다. 이러한 결과는 여러 데이터 세트와 모델 규모에 걸친 철저한 분석을 통해 입증되었으며, 이는 FOT-증강
의 우수성을 보여줍니다. 간단히 말해, 집중 트랜스포머(FOT) 접근 방식은 산만 문제를 완화하고 언어 모델에서 문맥 길이를 확장할 수 있게 해줍니다. 관련성 있는 단서와 중요하지 않은 단서를 구분하도록 모델을 훈련시킴으로써 아키텍처를 상당히 강화하고 광범위한 문맥 이해가 필요한 작업의 성능을 크게 향상시킵니다. 이 방법의 장점은 아키텍처를 변경하지 않고도 기존 모델에 적용할 수 있어 메모리 기능으로 모델을 경제적으로 향상시킬 수 있다는 점입니다.
논문 및 GitHub 링크 를 확인하세요. 최신 AI 연구 소식, 멋진 AI 프로젝트 등을 공유하는 26만 명 이상의 ML 서브 레딧, Discord 채널, 이메일 뉴스레터에 가입하는 것도 잊지 마세요. 위의 글과 관련하여 궁금한 점이 있거나 누락된 내용이 있으면 언제든지 이메일을 보내주시기 바랍니다. Asif@All Things IT @AI
보다 세련된 스타일로 작성된 다음 메시지 수정본을 검토해 주세요.“독점 커뮤니티인 AI Tools Club에 가입하여 광범위한 인공지능 도구 모음을 마음껏 탐색해 보세요.
최근 StoryBird.ai에 놀라운 기능이 추가되어 사용자가 주어진 프롬프트를 입력하는 것만으로 시각적으로 매력적인 스토리를 만들 수 있게 되었습니다. 이 혁신적인 도구를 살펴보고 싶다면 제공된 링크(스폰서 링크)를 클릭하세요.