딥마인드, LLM의 성격 특성 형성을 위해 협력하다
최근 대규모 언어 모델(LLM)의 발전으로 고유한 인지 과정, 속성 및 행동 패턴을 나타내는 합성 인간 인격을 가진 대화형 에이전트를 만드는 데 상당한 진전을 이루었습니다.
윤리적 AI 연구를 추구하고 사용자와 이러한 지적 에이전트 간의 효율적인 상호 작용을 촉진하기 위해서는 언어 학습 모델(LLM) 내에서 나타나는 성격의 특성을 정량화할 수 있는 적절한 과학적 지표가 필수적입니다.
Google, 케임브리지 대학, 게이오 대학의 학제 간 연구 그룹은 최근 “대규모 언어 모델의 성격 특성"이라는 제목의 논문에서 대규모 언어 모델에서 성격 특성의 진위 여부를 판단하는 새로운 방법을 개발했습니다. 시뮬레이션과 조절 메커니즘의 구현을 통해 연구팀은 이러한 모델에서 성격 특성의 발현을 제어할 수 있는 신뢰할 수 있는 수단을 확립했습니다.
저자들이 제출한 주요 논문에 대한 간략한 개요는 다음과 같습니다:
우리는 확립된 심리측정 테스트를 사용하여 LLM으로 생성된 텍스트에서 성격을 특성화하는 구성 타당성을 확립하는 방법론을 개발합니다. 제어된 프롬프트를 통해 LLM 응답의 모집단 분산을 시뮬레이션하는 새로운 방법을 제안합니다. 우리는 LLM으로 관찰된 성격 특성의 수준을 통제된 방식으로 변경하는 LLM 독립적인 성격 형성 메커니즘을 제공합니다.
언어 모델(LLM)이 인간과 유사한 성격 특성을 나타내는 능력을 특성화하는 과정은 두 단계로 이루어집니다. 먼저 일련의 프롬프트를 통해 심리 측정 테스트를 LLM에 실시합니다. 이러한 프롬프트는 테스트 내의 다양한 항목에 대한 모델의 평가를 유도하도록 설계되었습니다. 각 항목에 대해 가능한 모든 프롬프트를 생성함으로써 연구자는 LLM의 결과를 표준화된 응답과 비교하고 통계적 결과를 분석하여 얻은 점수의 유효성을 확인할 수 있습니다.
그런 다음 공인된 두 가지 심리 측정 도구, 즉 어휘 전통과 설문 전통을 선택하여 성격 특성을 평가하고, 빅 파이브 인벤토리(BFI)를 활용하여 견고성 검사를 수행합니다. 이는 이러한 방법을 통해 얻은 결과의 신뢰성을 확인하기 위해 수행됩니다.
연구자들은 아이템 프리앰블, 페르소나, 아이템, 아이템 포스트앰블이 포함된 시뮬레이션 프롬프트를 활용하여 모집단 이질성을 조사합니다. 프롬프트의 구성 요소를 체계적으로 변경하여 응답을 성격 관련 특성과 비교하고 조사 결과의 안정성을 평가하는 데 사용할 수 있는 ‘시뮬레이션 참가자’를 만듭니다.
도출된 성격 신호가 신뢰할 수 있고 외부적으로 의미 있는지를 판단하기 위해 연구자들은 다양한 개인을 대표하는 언어 모델로부터 성격 특성과 알려진 상관관계에 대한 광범위한 응답을 이끌어 내도록 설계된 구조화된 프롬프트를 활용합니다. 또한 반환된 언어 모델 데이터의 전반적인 품질을 평가하기 위해 포괄적인 통계적 방법을 사용합니다.
연구자들은 언어 모델의 합성된 성격 특성의 신뢰성과 타당성을 결정하는 방법을 고안했으며, 이러한 특성을 조작하는 기법을 제시합니다. 골드버그의 프레임워크를 활용하고 빅 5 영역 및 30개의 하위 성격 요인과 적절한 형용사 쌍을 선택함으로써 저자는 주어진 특성의 표현을 다양한 수준의 강도로 조절할 수 있습니다.
연구진은 객관식(MCQA) 및 장문 텍스트 생성에 대한 접근 방식에 대한 평가를 포함하는 실증 조사를 실시했습니다. 연구진의 전반적인 평가는 다음과 같습니다:
특정 언어 모델의 성격 시뮬레이션은 특정 프롬프트 구성에 따라 높은 수준의 신뢰성과 정확성을 갖는 것으로 밝혀졌습니다. 이 발견은 특히 규모가 크고 세밀하게 조정된 모델에서 주목할 만합니다. 또한 이러한 모델에서 나타나는 성격 특성을 특정 차원에 따라 조작할 수 있으므로 맞춤형 성격 프로필을 만들 수 있습니다.
대규모 언어 모델에서의 성격 특성 논문 arXiv .