압축과 지능의 관계에 대한 실증적 증거를 제공하는 중국의 AI 연구
많은 사람들이 지능과 압축을 서로 연결되어 있는 것으로 인식하는 경우가 많으며, 일부 업계 전문가들은 이 둘이 근본적으로 하나라고 주장하기도 합니다. 대규모 언어 모델(LLM)의 발전과 이것이 인공지능에 미치는 영향으로 이러한 관점은 점점 더 매력적으로 다가왔고, 연구자들은 압축의 관점에서 언어 모델링을 검토하도록 동기를 부여받았습니다. 이론적으로 압축은 모든 예측 모델을 무손실 압축으로 변환하거나 그 반대로 변환할 수 있습니다. 정보 압축에 대한 LLM의 입증된 숙련도를 고려할 때 언어 모델링을 압축의 한 형태로 간주하는 것이 타당합니다.
대규모 언어 모델(LLM)에 기반한 AI의 현재 상태는 압축 효율이 인지 능력과 같다는 명제의 타당성을 더욱 강조합니다. 이 개념은 상당한 이론적 고찰의 주제임에도 불구하고 이러한 주장을 뒷받침하는 실질적인 증거는 여전히 부족합니다. 이러한 부족함을 감안하여 최근 텐센트와 홍콩과학기술대학교가 주도한 연구에서는 언어 모델에 의한 정보 인코딩 시 비트 사용량 감소가 지적 능력의 신뢰할 만한 지표가 되는지에 대한 경험적 통찰력을 제공하고자 합니다. ‘지능’을 구성하는 요소에 대해 실용적인 관점을 채택함으로써 추상적이거나 상충되는 개념을 탐구하는 대신 다양한 하위 작업을 수행할 수 있는 모델의 능력에 초점을 맞춘 연구입니다. 이를 염두에 두고,
우리 그룹은 코딩 능력과 관련된 GitHub 코드와 같이 특정 도메인 내에서 관련성 있는 외부 코퍼스를 압축하는 다양한 대규모 언어 모델(LLM)의 효능을 보다 정교한 방식으로 평가했습니다. 그 후, 평균 벤치마크 수치를 활용하여 이러한 모델의 도메인 특화 지성을 확립하고 테스트 목적으로 일련의 다운스트림 과제를 수행했습니다.
30개의 공개 대규모 언어 모델(LLM)과 12개의 개별 벤치마크를 포함하는 광범위한 연구를 통해 다운스트림 작업에서 이러한 모델의 성능이 압축 효율과 거의 선형적인 반비례 상관관계를 보이는 것으로 관찰되었습니다. 특히 이러한 관계는 대부분의 개별 벤치마크뿐만 아니라 평가된 모든 도메인에 걸쳐 유지되는 것으로 나타났습니다. 또한, 모델 설계, 토큰화 방법, 훈련에 사용된 데이터 등 다른 측면을 고려했을 때도 유사한 결과를 얻었으므로 이 결과는 실험에 사용된 모델의 특정 구성을 넘어선다는 점에 유의해야 합니다.또한, 최근에는 벤치마크 점수와 검증 손실과 같은 대체 압축 등가 측정치 간의 연관성을 조사하는 추가 조사가 진행되었습니다.
이번 조사는 대규모 언어 모델(LLM)의 지능 지수(IQ)와 압축 효율성 간의 새로운 경험적 관계를 확립함으로써 언어 모델 분야에서 중요한 진전을 이룩한 것입니다. 이 획기적인 발견은 우수한 압축 능력이 곧 높은 인지 능력을 의미한다는 오랜 믿음을 입증합니다. 이 연구는 일관되고 보편적인 원칙, 즉 IQ와 압축 효율성 사이의 선형적 연관성을 보여줌으로써 더 지능적인 LLM이 복잡한 작업을 더 잘 처리할 수 있다는 개념을 뒷받침하는 강력한 증거를 제공합니다. 또한, 압축 효율은 텍스트 말뭉치를 원활하게 업데이트하여 과적합을 완화하고 테스트 중 오염을 방지하기 때문에 LLM의 신뢰할 수 있고 적응 가능한 평가 기준이 될 수 있습니다. 이러한
의 실질적인 의미를 인식하면서 본 연구에서는 몇 가지 한계점을 인정합니다. 첫째, 범용 텍스트 압축에 적합하지 않을 수 있는 미세 조정된 모델을 사용하는 대신 기본 모델에 초점을 맞췄습니다. 그럼에도 불구하고 기본 모델의 압축 효율과 향상된 모델의 성능 사이에 흥미로운 상관관계가 관찰되었으므로 추가 조사가 필요합니다. 또한, 평가된 역량이 아직 실제로 나타나지 않았기 때문에 우리의 연구 결과가 대규모 언어 모델(LM)로 확장될 수 있는지 여부를 고려할 가치가 있습니다. 우리의 연구는 향후 연구를 위한 유망한 기회를 제공하여 광범위한 연구 커뮤니티가 이러한 주제를 더 깊이 탐구하도록 장려합니다.
논문 및 Github 을 확인하세요. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시기 바랍니다. 뉴스레터는 저희의 최신 노력과 제품에 대한 정보를 얻을 수 있는 훌륭한 플랫폼으로, 소중한 고객들을 더욱 만족시킬 수 있을 것입니다.
40,000명 이상의 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
콘텐츠 파트너십을 원하시면 여기에서 이 양식을 작성하세요.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 등 저명한 기관의 해당 분야 최고 전문가들이 구독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.