Contents

언어 모델은 자신이 환각 상태인지 알 수 있을까요? Microsoft와 컬럼비아 대학교의 이 AI 연구는 프로브 제작을 통해 환각을 감지하는 방법을 탐구합니다.

Contents

인공 지능(AI) 영역의 최첨단 개발 기술인 대규모 언어 모델(LLM)은 딥러닝 방법론을 사용하여 인간과 유사한 담화를 생성하고 다양한 자연어 처리(NLP) 및 자연어 생성(NLG) 작업을 수행합니다. 방대한 데이터 세트에 대한 광범위한 노출을 통해 LLM은 쿼리에 대한 일관된 답변 생성, 텍스트 압축, 번역 렌더링, 텍스트 간 변환 효과, 코드 완성 제공 등 다양한 기능을 수행할 수 있습니다.

한 학자 그룹은 최근 연구에서 특히 언어 모델과 그 디코더 전용 모델에 초점을 맞춰 근거 생성 과제 내에서 환각 인식에 대한 조사를 수행했습니다. 이 분석의 주요 목적은 합성된 콘텐츠가 원래 프롬프트의 지침을 준수하는지 또는 잘못된 데이터를 도입하는지를 식별하는 것입니다.

Microsoft와 컬럼비아 대학교의 연구진으로 구성된 학자 그룹은 최근의 조사 노력에서 적절한 맥락에서 텍스트 콘텐츠를 생성하는 과정에서 트랜스포머 언어 모델이 나타내는 추측 행동을 예측하도록 설계된 프로브를 구축하는 데 관심을 기울였습니다. 이러한 노력의 핵심은 가설적 또는 생물학적으로 영감을 받은 꾸밈의 사례를 식별하는 수단으로 모델의 고유한 표현을 활용하는 것입니다. 이러한 추구를 용이하게 하기 위해 인위적으로 생성된 현상과 자연적으로 발생하는 현상을 구분하는 주석이 포함된 선별된 데이터 세트를 사용했습니다.

프로브는 언어 모델의 내부 작동을 면밀히 조사하기 위해 특별히 설계된 특수 도구 또는 메커니즘으로 간주할 수 있습니다. 이러한 프로브는 관련성 있고 일관된 텍스트를 생성하는 작업 중에 모델이 잘못된 정보를 생성할 수 있는 경우를 식별하기 위한 목적으로만 설계되었습니다. 이러한 프로브가 효과적으로 임무를 수행하려면 인위적으로 생성된 착각, 참조 입력 데이터의 의도적인 불일치, 모델의 출력에서 비롯된 자발적인 환각에 대한 삽화가 포함된 주석이 잘 달린 데이터 세트를 사용하여 학습해야 합니다.

이 조사에 따르면 물리적 강압을 통해 인위적으로 유도된 환각을 감지하기 위한 프로브는 자연스럽고 자발적인 시각 장애를 식별하는 데 높은 수준의 효율성을 보이지 않는 것으로 나타났습니다. 이는 인위적으로 조작되거나 조작된 사례로 훈련된 이러한 프로브가 실제적이고 유기적인 현상에 적응하는 데 어려움을 겪을 수 있음을 시사합니다.이 그룹은 통계적 특성과 특정 과제 요건이 모델의 숨겨진 정신 과정 내 표상의 성격에 영향을 미친다는 사실을 인정했습니다.

우리 연구 그룹은 다양한 과제, 숨겨진 상태 유형, 트랜스포머 아키텍처 내의 레이어에서 내재적 환각과 외재적 환각의 복잡성을 조사했습니다. 특히, 연구 결과에 따르면 모델에 의해 생성된 내부 표상이 외재적 환각, 특히 외부 자극과 관련된 환각을 선호하는 경향이 있는 것으로 나타났습니다. 이러한 환각을 수집하기 위해 입력 데이터로 사전 조건화된 대규모 언어 모델에서 반응을 생성하는 방법과 수동 편집을 통해 기준 입력 또는 출력에 불일치를 도입하는 방법 등 두 가지 접근 방식을 사용했습니다.

두 번째 방법의 결과는 인간 주석가가 부여한 환각 라벨이 더 많이 생성되는 경향이 있지만, 인위적으로 생성된 인스턴스는 테스트 시나리오에서 발생하는 분포와 일치하지 않기 때문에 일반적으로 가치가 떨어지는 것으로 간주됩니다.

연구팀은 다음과 같이 요약할 수 있는 주요 성과에 대한 간결한 개요를 제공했습니다.

합성 및 자연어 텍스트 샘플 모두에서 환각 콘텐츠의 존재를 식별하기 위해 각각 주석이 달린 15,000개 이상의 음성 인스턴스를 포함하는 포괄적인 데이터 세트가 최근 작성되었습니다. 이 방대한 컬렉션은 다양한 생성 작업에 걸쳐 있습니다. 환각 식별을 강화하기 위해 기존 벤치마크에 비해 효율성과 정밀도가 향상된 세 가지 신경망 모델을 도입했습니다. 또한, 유니티의 연구는 이러한 프로브의 효과에 영향을 미치는 다양한 요인, 즉 환각의 특성(환각이 맥락에 내재된 것인지 외부에서 비롯된 것인지 여부, 모델의 규모, 조사 중인 모델 아키텍처의 특정 측면 등)에 대해 탐구합니다.

논문을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한, 최신 AI 연구 소식, 멋진 AI 프로젝트 등을 공유하는 35k\\+ ML 서브레딧, 41k\\+ 페이스북 커뮤니티, 디스코드 채널, LinkedIn Gr , 이메일 뉴스레터에 가입하는 것을 잊지 마세요.

저희의 이전 노력에 감사하는 분들도 정기 업데이트에 포함된 콘텐츠에서 가치를 발견하실 수 있을 것이라 확신하므로 메일링 리스트에 가입해 주시기 바랍니다.

인공 지능을 활용하여 커뮤니케이션 효율성을 높여주는 최첨단 이메일 작성 확장 프로그램인 AImReply를 소개합니다. 지금 무료로 체험하여 원활한 통합과 손쉬운 작동을 경험해 보세요.