Contents

SOLAR가 빛날 수 있도록 가르치기: 언어 모델을 인간의 가치에 맞게 조정하는 업스테이지 AI의 sDPO

Contents

백과사전 수준의 지식을 보유하는 동시에 개인의 가치관, 도덕적 원칙, 취향에 대한 이해와 감상을 구현하는 놀랍도록 지능적인 인공지능이 있다고 상상해 보세요. 한 전담 그룹의 연구원들이 이 인공지능의 잠재력을 발휘하여 이 미래의 꿈을 실현했다고 합니다.

윤리적 기준이 여러분과 완벽하게 일치하는 고도로 유능한 인공지능(AI) 동반자가 있다고 상상해 보세요. 그러한 존재는 항상 진실성, 공정성, 자비심을 바탕으로 모든 행동과 상호작용을 할 것입니다. 이 개념은 이상적인 환상처럼 보일 수 있지만, 업스테이지 AI의 전문가들이 고안한 독창적인 방법을 통해 인공 지능과 인간 지능의 이 어려운 융합을 실현하는 데 한 걸음 더 가까워졌습니다.

/images/teaching-solar-to-shine-how-upstage-ais-sdpo-aligns-language-models-with-human-values.png

“단계적 직접 선호도 최적화”(sDPO)로 알려진 혁신적인 방법은 대규모 언어 모델을 우리 종의 윤리적 기준 및 우선순위와 조화시키는 데 매우 효과적인 전략입니다. 이러한 강력한 시스템은 ChatGPT와 같은 인공 지능 동반자의 기반이 됩니다. 이러한 강력한 기능에도 불구하고 이러한 모델이 인간 사용자의 기대와 다른 반응을 보이는 사례가 문서화되어 있습니다.

sDPO의 기본 아이디어는 반복적인 학습 과정을 통해 모델이 인간의 선호도를 점진적으로 내면화하는 교육적 접근 방식을 채택하는 것입니다. 이를 위해 연구자들은 먼저 문의에 대한 바람직한 답변과 바람직하지 않은 답변에 대한 인간의 판단을 요약한 정보를 수집합니다. 이 데이터 세트는 이후 더 작은 세그먼트로 나뉩니다.

초기 단계에서 AI 모델은 최적화를 위한 처리되지 않은 벤치마크 역할을 하는 초기 데이터 세트를 활용하여 학습을 거칩니다. 결과적으로 모델은 이전 상태를 능가하는 수준의 사용자 선호도에 도달하게 됩니다. 그 후, 모델의 정제된 반복은 기준점 역할을 수행하며 다른 선호도 정보 세그먼트에 대한 학습을 진행하여 인간의 성향에 대한 정렬을 더욱 향상시킵니다.

반복 절차는 모든 관련 선호도 정보가 고갈될 때까지 체계적으로 진행됩니다. 이 과정에서 모델은 점진적인 조정을 거쳐 인간의 가치와 도덕적 원칙에 부합하는 정도를 높입니다. 이 과정은 마치 경험이 풍부한 사람이 점진적이고 체계적인 방식으로 지식을 전달하여 모델이 윤리적 기준을 더 잘 준수하도록 안내하는 것과 유사합니다.

sDPO 시험의 결과는 탁월한 역량으로 우리를 놀라게 했습니다.이 연구원들은 sDPO를 활용하여 107억 개에 달하는 방대한 파라미터의 SOLAR 언어 모델을 최적화하고, 두 개의 서로 다른 선호도 카탈로그(OpenOrca 및 Ultrafeedback Cleaned)의 성능을 활용함으로써 이전까지 더 큰 규모로 여겨졌던 Mixtral 8x7B-Instruct-v0.1의 성능을 뛰어넘는 전례 없는 수준의 성과에 도달할 수 있었죠.

/images/teaching-solar-to-shine-how-upstage-ais-sdpo-aligns-language-models-with-human-values-1.png

sDPO와 연계되어 뛰어난 다용도성을 보여주는 SOLAR 모델은 HuggingFace Open LLM 리더보드에서 다양한 언어 이해 및 생성 작업에서 주목할 만한 숙련도를 보여주었습니다. 이 모델의 성능은 특히 TruthfulQA 과제에서 72.45점이라는 높은 점수를 획득하여 인간이 소중히 여기는 기본 원칙인 정직성을 준수하는 것을 강조했습니다.

미세 조정 정렬 조정은 컴팩트 언어 모델을 포함하여 탁월한 성능으로 이어질 수 있습니다. 모든 단계에서 더 잘 정렬된 참조 모델을 사용함으로써 sDPO는 이러한 모델이 인간의 가치에 대한 이해를 지속적으로 향상시킬 수 있는 역량을 부여하여 우리 존재에 가장 중요한 핵심 윤리적 신념에 뿌리를 둔 탁월한 수준의 역량으로 정점에 도달할 수 있도록 합니다.

AI 시스템과 인간 윤리의 통합을 추구하는 것은 연구자들이 제공한 통찰에 따라 진화하는 과정입니다. 이러한 노력을 위해서는 데이터 세트 속성과 시스템 성능에 미치는 영향에 대한 보다 심도 있는 이해가 필요합니다. 그럼에도 불구하고 sDPO가 보여준 성과는 인공지능과 인간의 현명함이 완벽하게 통합되는 미래에 대한 희망적인 전망을 제시합니다.

인공지능이 모든 기대를 뛰어넘는 동시에 인간 본성을 특징짓는 핵심 윤리적 원칙과 이상을 구현하는 현실, 즉 첨단 인공지능이 우리의 가장 높은 열망, 꿈, 의도를 구현하는 세상을 상상해 보세요. sDPO와 같은 최첨단 방법론의 출현으로 이러한 가능성은 점점 더 현실화되고 있습니다.

논문 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 최신 노력과 업데이트에 대한 정보를 얻을 수 있는 훌륭한 플랫폼인 뉴스레터를 구독해 주시면 감사하겠습니다.

현재 39,000명 이상의 회원을 보유한 Reddit의 방대한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 및 기타 여러 저명한 기관의 전문가들이 자주 열람하는 빠르게 확장되고 있는 AI 연구 뉴스레터를 구독하세요.