데이터 분석을 개선할 수 있는 Salesforce의 새로운 AI 모델
인공지능 기기에 대한 요구가 점점 더 뚜렷해지면서 더 복잡한 작업을 수행할 수 있는 기기에 대한 필요성이 커지고 있습니다. 초기에 단순한 문장으로 제한되었던 챗봇용 프롬프트는 이제 더욱 정교하고 다양해졌습니다. 또한 이러한 시스템에 검사를 위해 입력되는 원시 정보는 대부분 체계적이지 않고 구조가 부족합니다.
상당수의 조직은 방대한 보고서를 압축하거나 고객 정보를 분석하여 가치 있는 인사이트를 추출할 수 있는 ChatGPT 또는 Bard와 유사한 대화형 플랫폼을 구현함으로써 이점을 얻을 수 있습니다. 그러나 이러한 작업을 수행하기 위해서는 방대한 양의 데이터를 사용하여 이러한 모델을 학습시켜야 합니다. 이와는 반대로 압도적인 대다수의 기업이 이러한 유형의 작업을 능숙하게 수행할 수 없는 더 저렴하고 작은 모델을 선택하고 있습니다.
Meta의 LLaMA , Falcon-7B 및 MPT-7B 과 같은 오픈 소스 모델은 최대 시퀀스 길이가 약 2,000토큰 또는 텍스트나 코드의 기본 단위로 훈련되어 문서와 같은 긴 비정형 데이터를 처리하는 데 어려움을 겪었습니다.
입력 XGen-7B , 최대 1조 5천억 개의 토큰에 대해 최대 8,000개의 시퀀스 길이에 대한 ‘표준 밀도 주의’로 학습되어 긴 문서 입력을 더 쉽게 처리할 수 있는 Salesforce의 대규모 언어 모델 제품군입니다.
Salesforce 연구원들은 70억 개의 포괄적인 매개변수 세트를 활용하여 독점 플랫폼인 JaxFormer와 광범위하게 액세스 가능한 교육 데이터 세트에 대한 엄격한 훈련 연대를 거쳤습니다.
앞서 언급한 모델은 LLaMA, Flacon, Redpajama와 같은 여러 오픈 소스 대안과 비교하여 비슷하거나 더 나은 성능을 입증했습니다.
Salesforce의 연구원들이 구글 클라우드의 TPU-v4 인프라를 활용하여 1조 개 단위로 구성된 데이터 세트에 대한 학습 목적으로 15만 달러의 최소 비용으로 인공 지능을 개발했습니다.
XGen-7B 결과: 벤치마크 불도즈
Salesforce의 모델은 수많은 평가에서 여러 저명한 오픈 소스 대규모 언어 모델을 능가하는 뛰어난 성능을 입증했습니다.
대규모 멀티태스크 언어 이해도 측정(MMLU) 벤치마크 결과에 따르면 XGen은 평가된 4개 영역 중 3개 영역과 전체 가중 평균에서 가장 높은 점수를 획득하며 탁월한 성능을 발휘했습니다. 실제로 인문학 영역 전반의 MMLU 평가에서 XGen을 능가한 모델은 Meta의 LLaMA 한 모델뿐이었습니다.

동일한 벤치마크의 제로 샷 성능 평가에서 XGen은 인문학 영역에서는 LLaMA에 패배했지만 비슷한 결과를 보여주었습니다.
XGen의 성능은 TruthfulQA 벤치마크에 따른 다양한 제로샷 테스트 평가에서 다른 모든 모델보다 우수한 것으로 나타났습니다. 반면 Meta의 LLaMA는 다른 모델과 비교했을 때 ARC\_ch, 헬라 스웨그, 위노그란데와 같은 여러 벤치마크 평가에서 상대적으로 우수한 성능을 보였습니다.
코드 생성 작업에서 XGen과 LLaMA를 비교한 결과, 휴먼에벌 벤치마크 테스트의 [이메일 보호] 메트릭에서 14.20이라는 놀라운 점수를 획득하여 LLaMA의 성능인 10.38을 크게 능가하는 등 XGen이 매우 유리한 것으로 나타났습니다.
Salesforce AI 모델은 특히 SCROLLS 벤치마크의 QMSum 및 GovReport 데이터 세트와 관련하여 장시간 작업을 실행하는 데 탁월한 성능을 보여주었습니다.

XGen 모델은 동일한 학습 데이터를 사용하여 학습되지 않았기 때문에 직접 비교할 수 없다는 점에 유의해야 합니다.
XGen-7B 제품군
Salesforce의 연구자들은 XGen-7B-4K 기반, XGen-7B-8K 기반, XGen-7B 인스턴스 등 세 가지 프로토타입을 개발했습니다.
XGen-7B-4K-base 모델은 2,000개 및 4,000개 토큰 길이의 시퀀스에 대해 학습된 8,000억 개 이상의 컨텍스트 토큰을 처리할 수 있는 놀라운 성능을 자랑합니다. 이 강력한 언어 처리 도구는 대체 라이선스 계약을 통해 파생 저작물을 생성할 수 있는 Apache-2.0 라이선스의 후원으로 출시되었습니다. 그러나 프로그램의 모든 변경되지 않은 요소는 Apache-2.0 라이선스의 조건을 준수해야 합니다.
XGen-7B-8K 기본 모델이 추가로 3,000억 개의 토큰으로 향상되어 총 1조 5,000억 개의 토큰에 대한 상황 이해 용량을 갖추게 되었습니다. 또한, 이 업그레이드 버전은 Apache 2.0 라이선스 하에 제공되고 있습니다.
XGen-7B-inst는 데이터브릭스-dolly-15k , oasst1 , Baize 및 GPT 관련 데이터셋을 포함한 퍼블릭 도메인 인스트럭션 데이터에 대해 미세 조정되었습니다. 이 모델은 4,000개와 8,000개의 토큰으로 훈련되었으며 연구 목적으로만 공개되었습니다.
모델에 지식을 전달하기 위해 Salesforce의 조사자들은 각 단계에서 서로 다른 데이터 세트를 활용하는 2단계 훈련 접근 방식을 실행했습니다.
이 팀은 C4 파이프라인을 사용하여 추출한 6개의 개별 데이터 세트를 활용했으며, 동일한 URL을 가진 문서에 대해 가장 최근의 타임스탬프만 유지하여 이러한 문서를 필터링했습니다.이후 선형 모델을 학습시켜 위키백과 콘텐츠와 유사한 문서와 그렇지 않은 문서를 구분하고, 전자의 상위 20%를 추가 분석을 위해 선정했습니다.

Salesforce와 허깅페이스는 스타코더라는 코드 생성 모델을 공동 개발했고, 이후 코드 생성 작업을 수행하기 위해 이 모델을 통합했습니다. 그런 다음 스타코더의 필수 데이터를 이전 단계의 데이터와 결합했습니다.
OpenAI의 틱토큰 는 모델 데이터를 토큰화하는 데 사용되었습니다. 이후 연속된 공백과 탭에 대한 추가 토큰이 추가되었습니다.
XGen 학습 요법의 구현은 매우 효과적인 인공 지능 모델을 연속적으로 생성하지만, 불완전성이 완전히 없는 것은 아닙니다. Salesforce에 따르면 이러한 모델은 여전히 환각을 경험하는 경향이 있다고 합니다.
XGen-7B에 대한 자세한 내용은 이 모델에 대한 자세한 블로그 게시물
을 참조하십시오. 모델에 대한 코드베이스는 GitHub 에서, 모델 체크포인트는 포옹하는 얼굴 에서 확인할 수 있습니다.
컨텍스트가 핵심이다
광범위한 데이터를 처리할 수 있는 모델을 활용하면 상업적 기업에서 매우 유리할 수 있습니다.
Salesforce의 조사자들은 방대한 코퍼스를 통해 사전 학습된 언어 모델이 고객 데이터를 면밀히 조사하고 유용한 정보를 찾는 문의에 유익한 답변을 제공할 수 있다고 주장합니다.
챗봇 애플리케이션의 경우, 더 많은 컨텍스트는 더 많은 대화를 의미합니다. 그리고 이 개념을 연구하는 조직은 Salesforce만이 아닙니다. OpenAI 졸업생이 설립한 떠오르는 AI 스타트업인 Anthropic 은 최근 주력 애플리케이션인 Claude 의 컨텍스트 길이를 확장했습니다.
클로드는 다양한 확장 비즈니스 기록 또는 볼륨에서 정보를 검색할 수 있으며, 사용자로부터 쿼리를 받으면 방대한 지식 저장소에서 파생된 관련 답변을 제공합니다.
기존 모델들은 늘어난 컨텍스트 길이를 처리하는 데 어려움을 겪고 있습니다. ChatGPT 및 Bing의 AI 기반 채팅 시스템과 같은 고급 기술이 등장하면서 사용자들은 이러한 모델을 대화에 오래 사용할수록 응답의 일관성이 떨어지는 것을 관찰했습니다. 이는 이러한 모델이 긴 컨텍스트 길이를 관리할 수 있는 기능이 없기 때문에 관련성이 없거나 불규칙한 출력을 생성하기 시작하기 때문에 발생합니다.
5월에 발생한 사례와 같은 몇 가지 사례로 인해 Microsoft는 프로그램이 고객과의 긴 토론을 효과적으로 관리하지 못해 개인이 검색 엔진과 지속할 수 있는 대화의 양을 제한하게 되었습니다.