ETH 취리히 연구진, 모듈형 하이퍼네트워크를 통해 AI의 구성 학습에 대한 새로운 통찰력 공개
인간은 발달 초기 단계부터 자신의 인지적 자원을 혁신적인 방식으로 재조합하는 데 탁월한 재능을 보입니다. 유아는 달리기, 점프, 던지기 등의 운동 활동을 매끄럽게 통합하여 독특한 레크리에이션을 만들어낼 수 있습니다. 마찬가지로 수학자들은 복잡한 딜레마를 해결하기 위해 기본적인 수학적 절차를 재배열하는 데 있어 놀라운 다재다능함을 보여 왔습니다. 구성적 추론 능력, 즉 기초적인 구성 요소의 재조립을 통해 새로운 결과를 도출하는 능력은 인공지능 시스템에게 어려운 장애물입니다.
여러 기관의 연구진이 이 문제에 대한 잠재적인 해결책을 발견했습니다. 2024년 국제 학습 표현 컨퍼런스(ICLR)에서 ETH 취리히, Google, 임페리얼 칼리지 런던의 전문가들로 구성된 연구팀은 모듈식 신경 아키텍처의 일종인 하이퍼네트워크를 활용해 복잡한 작업 내에 존재하는 복잡한 구조적 관계를 해독하는 방법에 대한 연구 결과를 발표했습니다. 이 연구는 이 접근법에 대한 이론적, 실험적 증거를 모두 제공합니다.
GPT-3와 같은 현재의 최첨단 인공 지능 모델은 인상적인 능력을 보여주지만, 이러한 모델은 데이터에 대한 탐욕이 유난히 강합니다. 새로운 능력을 능숙하게 학습하기 위해서는 상당한 양의 학습 데이터 세트가 필요합니다. 안타깝게도 이러한 모델은 교육 범위를 벗어난 낯선 문제를 해결하기 위해 지식을 적응적으로 재조합하는 데 한계가 있습니다. 반대로 인간은 단순화된 요소를 손쉽게 통합하여 복잡한 인지적 틀을 구성할 수 있는 구성 능력에 타고난 적성을 지니고 있습니다. 이러한 능력은 새로 습득한 정보를 신속하고 보편적으로 적용할 수 있게 해줍니다. 인공지능에 이러한 구성적 추론 능력을 부여하는 것은 이 분야에서 매우 중요한 목표로 여겨져 왔습니다. 이 목표가 달성되면 보다 다양하고 데이터
연구자들은 하이퍼네트워크가 잠재적으로 구성적 인공 지능을 달성하기 위한 솔루션을 제공할 수 있다고 제안합니다. 하이퍼네트워크는 모듈식 및 구성적으로 구조화된 매개변수 배열을 통해 추가 신경망의 가중치를 생성할 수 있는 신경망입니다. 적응성이 부족한 기존의 ‘모놀리식’ 아키텍처와 달리 하이퍼네트워크는 가중치 영역 내에서 선형적인 매개변수 조합을 통해 다양한 역량 구성 요소를 선택적으로 활성화하고 통합할 수 있습니다.
각 모듈을 특정 역량을 보유한 개별 전문가로 상상해 보세요.하이퍼네트워크는 새로운 상황에 효과적으로 대처하기 위해 맞춤형 전문가 그룹을 구성할 수 있는 숙련된 프로젝트 관리자로서의 역할을 합니다. 핵심 질문은 하이퍼네트워크가 협업의 결과물을 모니터링하는 것만으로 원래의 전문가 모듈과 그 결합 원리를 파악할 수 있는 시점에 관한 것입니다.
강사-학습자 역학 관계에 대한 심층 조사를 통해 주목할 만한 사실을 발견했습니다. 교육 자료 내에 특정 전제 조건이 존재할 경우, 하이퍼네트워크 학습자는 모듈식 교육자 하이퍼네트워크에서 선형 변환을 제외하고는 실제 빌딩 블록과 그 배열을 검증 가능하게 식별할 수 있음을 입증했습니다. 이러한 필수 요건은 다음과 같습니다:
구성 지원 요건은 개별적으로 사용되든 다른 구성 요소와 함께 사용되든 관계없이 학습 과정에서 모델의 모든 구성 요소를 평가해야 한다는 것을 의무화합니다. 이를 통해 모든 부분이 전체 성능에 기여하도록 보장합니다. 반면, 연결된 지원은 어떤 구성 요소가 다른 구성 요소와 별도로 작동하는 것이 아니라 상호 의존적이며 여러 학습 작업에 걸쳐 존재해야 합니다. 마지막으로, 과도한 매개변수화에 대한 제한은 학생의 역량이 교사의 역량을 훨씬 능가해서는 안 된다는 것을 의미하는데, 이는 전체적인 이해 대신 개별 과제에 대한 독립적인 학습으로 이어질 수 있기 때문입니다.
특히, 잠재적인 모듈 순열의 수가 매우 많다는 점을 고려할 때, 연구자들이 교수자로부터 무시할 만한 양의 인스턴스만 제공해도 학습자가 모든 숨겨진 모듈 쌍을 포괄하는 구성적 일반화를 보여줄 수 있음을 입증한 것은 주목할 만한 일입니다.
연구자들은 가설을 검증하기 위해 인위적으로 구성된 모듈 배열부터 복합 목표에 대한 선호도와 성취도를 포함하는 배열에 이르기까지 다양한 복잡한 설정에 걸쳐 기본 구성 패턴을 식별하는 하이퍼네트워크의 능력을 효과적으로 보여주는 일련의 혁신적인 메타학습 실험을 수행했습니다.
연구진이 실시한 테스트에서는 에이전트가 미로와 같은 구조를 통과하고, 색상이 지정된 항목과 상호 작용하며, 선호도를 최적화해야 하는 미래 시나리오에서 하이퍼네트워크와 ANIL 및 MAML 같은 기존 모델을 비교했습니다.학습한 선호도를 새로운 상황에 적용할 때 ANIL과 MAML이 보여준 성능 부족에도 불구하고, 하이퍼네트워크는 다양한 선호도 구성에서 그들의 행동을 정확하게 일반화하는 놀라운 적응력을 보여주었습니다.
특히 연구자들은 하이퍼네트워크가 획득한 표현에서 직접 모듈의 실측치 활성화 값을 해독할 수 있는 사례에 주목하여, 제한된 작업별 지침을 통해 내재적인 모듈 조직을 밝혀낼 수 있다는 증거를 제시했습니다.
이 연구의 결과는 큰 잠재력을 보여주지만, 여전히 극복해야 할 장애물이 존재합니다. 한 가지 중요한 문제는 하이퍼네트워크가 특정 작업을 진정으로 학습하기보다는 단순히 암기하도록 유도하는 과도한 매개변수화입니다. 확장 가능한 구성 추론을 달성하려면 균형 잡힌 아키텍처가 필요합니다. 귀납적 편향, 학습 메커니즘, 설계 원리를 더 깊이 이해함으로써 연구자들은 인간의 인지와 유사한 방식으로 지식을 습득할 수 있는 AI 시스템 개발로 나아갈 수 있으며, 이를 통해 재능을 효과적으로 재배치하여 실질적인 발전을 이룰 수 있습니다.
논문을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시면 더욱 관심을 불러일으킬 수 있는 최신 노력과 개발 상황에 대한 정보를 얻을 수 있는 훌륭한 수단인 만큼 진심으로 초대합니다.
현재 39,000명 이상의 회원을 보유한 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 및 기타 여러 저명한 기관의 저명한 연구자들이 구독하는 빠르게 확장되고 있는 AI 연구 뉴스레터를 구독하세요.