AI의 인과적 추론의 발전: 홍콩 폴리테크닉 대학교와 충칭 대학교 연구진, LLM 평가를 위한 코즈널벤치 개발
인과 학습은 인공지능 시스템의 효율성에 직접적인 영향을 미치는 현실의 데이터 분배를 지배하는 기본 원칙을 조사합니다. 이러한 모델이 인과 관계를 어느 정도 이해할 수 있는지에 따라 선택을 합리화하고, 새로운 정보에 적응하며, 대체 시나리오를 구상하는 능력이 결정됩니다. 대규모 언어 모델(LLM)에 대한 관심이 높아지고 있지만, 적절한 벤치마크가 없어 인과관계 처리와 관련한 역량을 평가하는 데 어려움이 있습니다.
기존 연구는 GPT-3 및 그 파생 모델을 포함한 LLM을 기본 상관관계 할당을 통해 평가하는 기본 벤치마크를 포함하며, 복잡하지 않은 인과 관계 아키텍처를 가진 제한된 데이터 세트를 주로 활용합니다. 또한, 연구들은 통상적으로 BERT, RoBERTa, DeBERTa와 같은 다른 LLM을 분석하지만, 이러한 분석은 일반적으로 작업 복잡성과 데이터 세트 가변성의 확장된 배열에서 더 높은 수준의 다면성을 필요로 합니다. 이전의 방법론은 평가 절차에 구조화된 정보를 통합하려는 시도를 해왔지만, 기존의 배경 지식과 원활하게 통합하지는 못했습니다. 따라서 이러한 한계로 인해 기존 패러다임은 언어 모델 전반의 LLM 역량을 철저히 탐색하는 데 한계가 있었습니다.
CausalBench는 홍콩 폴리테크닉 대학교와 충칭 대학교의 연구진이 개발한 인과관계를 학습하는 언어 모델의 역량을 평가하기 위한 혁신적인 벤치마크입니다. 다양한 수준의 복잡성과 다양한 작업을 포괄하여 여러 환경에서 인과적 추론을 이해하고 활용하는 모델의 능력을 측정하는 포괄적인 접근 방식이 차별화되는 특징입니다. 이렇게 잘 설계된 방법론을 채택함으로써 CausalBench는 실제와 매우 유사한 조건에서 모델이 얼마나 효과적으로 작동하는지에 대한 신뢰할 수 있는 평가를 제공합니다.
CausalBench는 대규모 언어 모델(LLM)의 인과 관계 이해 능력을 평가하는 강력한 방법론을 채택하고 있습니다. 아시아, 삭스, 서베이와 같은 데이터 세트를 활용하여 CausalBench는 상관관계를 파악하고, 인과 관계 프레임워크를 구축하고, 인과 관계 방향을 설정하도록 함으로써 이러한 LLM의 인과 관계 이해도를 평가합니다. 성능을 평가하기 위해 F1 점수, 정확도, 구조적 해밍 거리(SHD), 구조적 개입 거리(SID) 등의 메트릭이 사용됩니다.이 모든 작업은 ‘제로 샷’ 상황에서 이루어지므로 모델에 대한 사전 미세 조정이 이루어지지 않아 다양하고 복잡한 상황에서 인과 관계를 처리하고 분석하는 각 LLM의 역량을 정확하게 반영할 수 있습니다
CausalBench를 활용하여 실시한 예비 분석에서 다양한 대규모 언어 모델(LLM) 간의 성능 차이가 뚜렷하게 드러났습니다. 실제로 GPT4-Turbo를 비롯한 특정 모델은 아시아 및 삭스 데이터 세트와 같은 소스의 데이터 상관 관계에서 0.5를 넘어서는 매우 높은 F1 점수를 나타냈습니다. 반대로, 설문조사 데이터 세트를 사용하는 보다 복잡한 인과관계 평가 시나리오에서는 F1 점수가 0.3 임계값을 넘은 경우가 드물게 발생하는 등 동일한 모델의 성능이 저조한 경우가 많았습니다. 이러한 불일치는 다양한 수준의 인과적 복잡성과 씨름하는 LLM의 다면적인 역량을 강조하며, 이로써 저명한 벤치마크
요약하면 홍콩 폴리테크닉 대학교와 충칭 대학교의 연구원들은 대규모 언어 모델(LLM)의 인과 학습 능력을 평가하도록 설계된 광범위한 벤치마크 도구인 CasualBench를 개발했습니다. 이 연구는 다양한 데이터 세트와 복잡한 평가 작업을 통해 인과 관계를 이해하는 데 있어 다양한 LLM의 강점과 한계를 조명합니다. 이러한 결과는 실제 적용을 위해 정확한 의사 결정과 인과관계에 기반한 건전한 논리적 추론이 필요한 상황에 필수적인 AI의 인과 추론 능력을 향상시키기 위한 모델 학습의 지속적인 발전이 중요하다는 점을 강조합니다.
논문을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시기 바랍니다. 뉴스레터는 여러분의 관심을 불러일으킬 만한 최신 노력과 업데이트에 대한 정보를 얻을 수 있는 훌륭한 플랫폼이므로 구독해 주시기 바랍니다.
4만 명이 넘는 회원을 자랑하는 번창하는 서브 레딧에 가입하여 머신 러닝 애호가들의 광범위한 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
저희 조직과 파트너십을 맺어 인공지능에 관심이 있는 약 150만 명의 잠재 고객에게 접근할 수 있는 잠재적 협업을 고려하고 계십니까? 이 기회에 대해 자세히 알아보시기 바랍니다.
구글, 엔비디아, 메타, 스탠포드 대학교, 매사추세츠 공과대학(MIT), 마이크로소프트 등 저명한 기관의 최고 전문가들이 구독하는 활발한 AI 연구 뉴스레터를 구독하세요.