딥마인드의 최첨단 접근 방식으로 보편적 예측을 목전에 둔 신경망
메타러닝은 AI 시스템이 제한된 데이터를 사용하여 새로운 기술을 빠르게 습득할 수 있도록 하는 효과적인 접근법으로 부상했습니다. 다양한 표현과 학습 전략을 탐색함으로써 이러한 시스템은 익숙하지 않은 작업에 적응할 수 있습니다. 이를 위해서는 메타러닝 모델을 다양한 문제 구조와 패턴에 노출시키는 광범위한 작업 분포를 구축하는 것이 중요합니다. 이러한 광범위한 노출의 잠재적 결과는 다양한 영역에 걸쳐 여러 문제를 해결할 수 있는 ‘보편적인’ 표현을 개발하는 것입니다. 이러한 발전은 궁극적으로 기계가 인간이 할 수 있는 모든 지적 작업을 수행할 수 있는 인공 일반 지능(AGI)의 실현에 한 걸음 더 다가서게 해줄 것입니다.
구글 딥마인드 연구 그룹에서 최근 발표한 “범용 예측자 학습"이라는 제목의 논문에서는 금속 학습 기법을 통해 신경망에 솔로모노프 유도를 통합할 수 있는 가능성을 탐색하고 있습니다. 이 연구에서는 유니버설 튜링 머신(UTM)을 사용하여 학습 데이터를 생성함으로써 메탈러닝 기능을 향상시키고 신경망이 보편적으로 적용 가능한 예측 접근법을 채택할 수 있는 능력을 갖추도록 제안합니다.
1964년 솔로모노프가 처음 소개한 솔로모노프 유도(SI)는 최적의 범용 예측 모델을 만들기 위한 강력한 이론적 프레임워크를 제공합니다. 그러나 SI와 관련된 주요 과제 중 하나는 적절한 신경망 아키텍처를 결정하고 시간이 지남에 따라 이러한 시스템을 점진적으로 개발할 수 있도록 적절한 훈련 데이터 분포를 설정하는 것입니다. 신경망은 보편적인 연산 능력을 갖추고 있지만 확률적 경사 하강을 포함한 기존의 훈련 기법은 신경망의 잠재력을 최대한 발휘하지 못할 수 있습니다.
이 문제를 해결하기 위해 유니티는 트랜스포머 및 장단기 메모리 네트워크와 같은 기존 아키텍처를 활용하면서 효과적인 데이터 훈련 방법론을 개발하는 데 집중합니다. 유니티는 데이터를 생성하기 위해 완전히 일반적인 컴퓨터를 구현한 유니버설 튜링 머신(UTM)을 사용합니다. ‘범용 데이터’로 훈련함으로써 네트워크는 계산 가능한 광범위한 패턴에 노출되어 보편적으로 적용할 수 있는 귀납적 접근 방식을 개발할 수 있습니다.
이 연구 그룹은 UTM 데이터 생성의 메커니즘과 관련 훈련 체제에 대한 복잡한 이론적 검토를 제시함으로써 결론을 뒷받침하고, 이 과정에서 통계적 독립성을 향한 궁극적인 접근 방식을 강조합니다.또한, 복잡성과 다양성이 서로 다른 수준의 알고리즘 데이터 생성기와 함께 장단기 메모리 네트워크(LSTM) 및 트랜스포머 모델과 같은 다양한 신경 구조를 활용하여 광범위한 일련의 테스트를 수행했습니다.
연구 결과에 따르면 보편적 시간 의미(UTM) 정보를 학습한 상당한 수준의 트랜스포머 모델은 자신의 지식을 다양한 작업에 효과적으로 적용할 수 있으며, 이는 일반화 가능한 교차 작업 원칙의 출현을 시사합니다. 대용량 단기 메모리 네트워크(LSTM)와 트랜스포머는 모두 가변 길이 마르코프 프로세스를 처리할 때 뛰어난 성능을 발휘하며, 안전 간섭(SI)의 필수 요건인 프로그램 시퀀스 내에서 확률적 혼합을 공식화할 수 있는 능력을 강조합니다.
본질적으로 이 연구는 알고리즘과 베이지안 접근법을 모두 구현하는 데 있어 신경망 모델의 잠재력을 보여주며, 더 복잡한 모델이 더 우수한 성능을 보여줍니다. 또한 유니버설 튜링 머신(UTM)에서 훈련된 이러한 모델은 다양한 영역에 적용될 수 있어 광범위한 전이 기술을 학습할 수 있다는 점도 주목할 만합니다. 앞으로 연구진은 UTM 데이터를 활용하고 방대한 양의 기존 데이터 세트 정보와 통합하여 향후 순차적 모델의 기능을 확장할 것을 제안합니다.