맥락 내 학습 능력에 대한 비교 연구: 회귀 작업에서 대규모 언어 모델의 다양성 탐색하기
인공 지능 영역에서 대규모 언어 모델(LLM)의 등장은 광범위한 언어 능력과 관련하여 상당한 관심을 불러일으켰습니다. 역사적으로 자연어 처리와 관련된 프로세스에 사용되어 온 이 모델은 현재 회귀 분석과 관련된 계산을 수행할 수 있는 능력에 대한 연구가 진행 중입니다. 이러한 변화는 다양하고 복잡한 작업을 관리할 수 있는 다면적이고 적응력 있는 AI 플랫폼을 선호하는 전반적인 패턴을 나타냅니다.
인공지능 연구가 직면한 주요 장애물 중 하나는 최소한의 보충 정보를 사용하여 새로운 작업을 쉽게 수용할 수 있는 모델을 만드는 것입니다. 이러한 시스템이 포괄적인 사전 학습을 활용하여 작업별 교육 없이도 낯선 문제에 효과적으로 적용할 수 있도록 역량을 강화하는 데 중점을 둡니다. 이 문제는 회귀 작업에서 특히 중요한데, 일반적으로 최적의 성능을 위해 새로운 데이터 세트를 활용하여 상당한 재훈련이 필요합니다.
기존 환경에서는 회귀 분석이 주로 지도 학습 접근법을 사용하여 수행됩니다. 랜덤 포레스트, 서포트 벡터 머신, 그라데이션 부스팅과 같은 기법이 일반적으로 사용되지만, 이러한 방법은 상당한 양의 학습 데이터가 필요하고 최적의 성능을 달성하기 위해 복잡한 매개변수 조정이 필요한 경우가 많습니다. 이러한 전략은 매우 효과적이지만 광범위한 재학습 없이 새롭거나 동적인 데이터 상황을 수용하는 데는 한계가 있습니다.
애리조나 대학교와 클루지나포카 공과대학교의 연구원들은 상황에 맞는 학습을 위해 GPT-4 및 Claude 3과 같은 기존 언어 모델을 사용하는 혁신적인 방법론을 개발했습니다. 이 기술은 기능 환경 내에서 주어진 예제를 기반으로 예측을 생성하는 이러한 모델의 역량을 활용함으로써 추가 교육 세션이 필요하지 않습니다. 이 연구는 이러한 모델이 입력 피드에 통합된 입력-출력 쌍의 분석을 통해 선형 및 비선형 회귀 작업을 모두 수행할 수 있음을 나타냅니다.
이 연구에서 사용된 접근 방식은 상황 내 학습을 기반으로 하며, 이는 LLM에 회귀 작업의 특정 사례를 제공하고 새로운 상황으로 일반화할 수 있도록 하는 것을 포함합니다. 이를 설명하기 위해 복잡한 회귀 문제를 시뮬레이션하는 인공적으로 생성된 데이터 세트를 사용하여 기존 접근 방식과 비교함으로써 Claude 3를 평가했습니다. 이 테스트에서 클로드 3는 매개변수를 수정하거나 추가 교육을 받지 않고도 기존 회귀 전략과 동등하거나 더 나은 성능을 보여주었습니다.이러한 우수성을 보여주는 한 가지 예는 매우 비선형적인 시나리오를 제시하는 Friedman #2 데이터 세트의 결과를 예측하는 것입니다. 특히 클로드 3은 이 작업을 처리할 때 그라디언트 부스팅에 비해 평균 절대 오차(MAE)가 더 낮았습니다.
다양한 모델과 데이터 세트에서 여러 변수 중 하나만 유용한 정보를 제공하는 경우(“클로드 3”), 이 모델은 GPT-4와 같은 다른 대규모 언어 모델과 함께 정확도 측면에서 지도 및 휴리스틱 기반 비지도 방법을 모두 능가하는 주목할 만한 성능을 보였습니다. 특히, 데이터 희소성으로 인해 기존 접근법에서 상당한 어려움을 겪는 희소 선형 회귀와 관련된 상황에서 LLM은 효과적으로 적응하고 놀라운 정밀도를 보여 평균 평균 절대 오차(MAE)가 0.14에 불과한 반면 가장 가까운 기존 대안은 0.12의 MAE를 기록하는 등 놀라운 성과를 보였습니다.
연구 스냅샷
요약하면, 이 연구는 추가 훈련 없이 문맥 학습을 통해 회귀 작업을 수행할 때 GPT-4 및 클로드 3과 같은 고급 언어 모델의 놀라운 유연성과 효율성을 강조합니다. 이러한 모델은 이전에 습득한 지식을 새로운 과제에 적용하는 데 탁월한 능력을 보여 주었으며, 기존의 지도 방식과 비슷하거나 심지어 이를 능가하는 수준의 정확도를 보여주었습니다. 이러한 성과는 이러한 최첨단 모델이 광범위한 애플리케이션에 활용될 수 있으며, 광범위한 재교육이 필요한 기법에 대한 다재다능하고 유용한 대안이 될 수 있음을 의미합니다. 결과적으로 이러한 결과는 데이터 기반 작업에 인공지능을 활용하는 패러다임의 변화를 시사하며, 다양한 분야에 걸쳐 언어 모델의 잠재적 적용 가능성과 확장성을 크게 확장할 수 있습니다.
논문 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시면 저희의 최신 노력과 발전 상황을 적시에 알 수 있는 좋은 기회가 될 것입니다.
4만 명이 넘는 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
인공 지능에 관심이 있는 150만 명 이상의 방대한 잠재 고객에게 다가가기 위해 저희 팀과 협업할 수 있도록 여러분을 초대합니다.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 등 저명한 기관의 전문가를 비롯한 업계 최고의 전문가들이 구독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.