사전 훈련된 기초 모델이 분자 머신 러닝의 미래일까요? 전례 없는 데이터 세트와 Graphium 머신 러닝 라이브러리를 소개합니다.
최근 머신러닝을 신약 개발에 적용하는 데 있어서의 발전은 주로 원자 상호작용, 분자 표현 학습, 3차원(3D) 및 4차원(4D) 시나리오, 활동 및 특성 예측, 역장 개발, 새로운 화합물 생성에 능숙함을 입증한 그래프 및 기하학적 딥러닝 모델 덕분이라고 할 수 있습니다. 다른 딥러닝 접근 방식과 마찬가지로 이러한 방법도 높은 수준의 정확도를 달성하기 위해서는 상당한 양의 학습 데이터가 필요합니다. 안타깝게도 현재 사용 가능한 치료제와 관련된 데이터 세트는 샘플 크기가 제한되어 있는 경우가 많습니다. 그럼에도 불구하고 컴퓨터 비전 및 자연어 처리 작업에서 일반적으로 사용되는 사전 학습된 기초 모델인 자기 지도 학습 방법론의 활용을 통해 상당한 진전이 이루어졌으며, 실제로 학습된 귀납적 편향은 방대한 양의 데이터를 사용하여 방대한 모델을 학습하는 초기 투자를 통해 후속 작업의 데이터 요구 사항을 줄일 수 있다는 것이 경험적으로 입증되어 일회성 비용으로 구성됩니다. 이 성과 이후, 후속 연구에서는 제한된 데이터 분자 모델링을 위해 방대한 분자 그래프 신경망을 사전 훈련하는 것의 이점에 대해 탐구했습니다. 그러나 주석이 달린 방대한 분자 데이터 세트의 부족으로 인해 이러한 연구는 대조 학습, 자동 인코더 또는 노이즈 제거 작업과 같은 자체 감독 기법을 사용하는 것으로 제한되었습니다. 또한 자연어 처리(NLP) 및 컴퓨터 비전(CV)의 자가 지도 모델에서 생성된 소폭의 향상에도 불구하고, 이러한 모델에서 미세 조정을 통해 얻은 결과는
분자의 행동과 그 형태는 주변 환경의 영향을 받고 양자역학 원리의 지배를 받습니다. 분자를 그래프로만 표현할 때 이러한 한계는 구조적으로 유사한 화합물이 다양한 정도의 생물학적 활성을 나타낼 수 있다는 관찰에서 잘 드러나는데, 이를 “활성 절벽” 효과라고 합니다. 따라서 분자 시뮬레이션을 위한 효과적인 기본 모델을 개발하기 위해서는 양자 역학적 통찰력과 생물학적 맥락에 따른 데이터를 모두 활용하는 지도 학습 기법을 사용해야 합니다.
이 연구에서는 밸런스 연구소, 맥길 대학교, RWTH 아헨 대학교, HEC 몬트리올과 같은 기관의 연구원들로 구성된 학제 간 연구팀이 협력하여 분자 연구 분야에서 상당한 발전을 이루었습니다. 먼저, 이들은 기존 벤치마크에 비해 훨씬 더 큰 규모의 새로운 멀티태스크 데이터 세트를 도입했습니다. 이 데이터 세트는 대규모 데이터 세트를 처리하기 위해 특별히 설계된 최첨단 그래프 머신 러닝 툴킷인 Graphium을 사용하여 효율적인 학습을 가능하게 합니다. 마지막으로, 연구진은 멀티태스크 학습의 이점을 보여주는 몇 가지 기준 모델을 제시합니다. 이 연구진은 세심하게 큐레이션되고 체계적으로 관리되는 3개의 다중 라벨 데이터세트를 제공하며, 총 1억 개에 가까운 분자와
로 구성된 현재까지 가장 광범위한 데이터세트를 제공합니다. 다양한 라벨링 시스템을 활용하면 학제 간 전문성을 보다 효율적으로 개발할 수 있습니다. 다양한 다운스트림 분자 시뮬레이션 애플리케이션에서 이러한 모델의 적용 가능성을 향상시킴으로써 기초 구조를 구축할 수 있습니다. 연구진은 새로운 정보를 철저히 조사하고 현재 데이터 세트에 통합하여 컬렉션에 포함된 화합물의 양자 역학적 특성과 생물학적 역할에 대한 자세한 정보를 포함하는 포괄적인 저장소를 개발했습니다. 에너지, 전하, 공간 배열을 포함한 양자 역학적 특성은 PM6와 같은 반경험적 기법이나 밀도 함수 이론에 기반한 이론(예: B3LYP)과 같은 최첨단 방법을 통해 계산됩니다. 그림 1에 표시된 것처럼 생물학적 활성 데이터베이스는
에서 파생된 분자 프로필로 구성됩니다. 제안된 분자 데이터 집합의 예시적인 표현은 그림 1에 표시되어 있습니다. 이러한 “혼합"은 여러 작업을 수행하는 동안 동시에 처리할 수 있도록 공식화되었습니다. 이러한 혼합물에는 양자, 화학 및 생물학적 영역에 관한 고려 사항과 함께 그래픽 및 노드 수준과 관련된 노력이 포함되어 있습니다. 또한 이 컬렉션에는 범주형 및 연속형 데이터 포인트가 모두 포함되어 있습니다.
양자 및 생물학적 현상을 동시에 분석하면 제한된 실험 데이터 세트에서 쉽게 추출할 수 없는 화합물의 복잡한 환경적 측면을 식별할 수 있습니다. 방대한 다중 작업 데이터 세트에 대한 효과적인 학습을 용이하게 하기 위해 그래프 라이브러리에서는 그래프 머신 러닝 패키지인 그래프(Graphium)를 개발했습니다. 이 획기적인 라이브러리는 앙상블 기능 세트와 기능 간의 복잡한 상호 의존성을 통합함으로써 분자 그래프 기초의 개발과 훈련을 간소화합니다. 노드, 에지 및 그래프 속성 간의 상호 작용을 최소화하면서 주로 직렬 샘플 처리를 위해 설계된 이전 프레임워크와 달리, Graphium은 최첨단 GNN 아키텍처를 도입하면서 특징과 표현을 중요한 구조 요소로 취급하여 이러한 제약을 극복합니다.
Graphium은 사용자가 데이터 세트를 쉽게 결합하고, 누락된 데이터를 처리하고, 공동 훈련을 수행할 수 있는 사용자 친화적인 인터페이스를 통해 대규모 앙상블 데이터 세트에서 머신 러닝 모델을 훈련하는 복잡한 프로세스를 간소화합니다. 우리 팀은 단일 데이터 세트와 다중 데이터 세트 조건 모두에서 여러 가지 모델을 사용하여 실험을 수행했습니다. 그 결과, 다중 데이터 세트 학습이 리소스가 적은 작업의 성능을 어떻게 개선할 수 있는지에 대한 귀중한 인사이트를 얻을 수 있었습니다. 이번 연구 결과가 향후 이러한 데이터 세트 사용자에게 유용한 벤치마크가 될 것으로 기대합니다.
요약하면, 이 연구는 분자의 양자 특성과 생물학적 유연성을 모두 정확하게 예측할 수 있는 기본 모델을 훈련하기 위해 특별히 설계된 현존하는 최대 규모의 2차원(2D) 분자 데이터 세트를 제공합니다. 또한 그래피움 라이브러리의 개발은 훈련 프로세스를 촉진하는 동시에 다양한 후속 애플리케이션에서 활용된 데이터 세트와 라이브러리의 효율성을 보여주는 대체 벤치마크 결과를 제공했습니다.
논문 을 확인하세요. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 최신 AI 연구 소식, 멋진 AI 프로젝트 등을 공유하는 31k\\+ ML 서브 레딧, 40k\\+ 페이스북 커뮤니티, 디스코드 채널, 이메일 뉴스레터에 가입하는 것을 잊지 마세요.
저희의 노력에 감사하는 분들을 위해 존경받는 뉴스레터를 구독해 주시면 더욱 흥미를 불러일으킬 최신 노력과 업데이트에 대한 정보를 얻을 수 있는 훌륭한 플랫폼이 될 것입니다.
WhatsApp에도 입점을 완료했으며, 플랫폼 내 전용 AI 채널에 여러분을 초대합니다.
이 분야의 최첨단 개발에 대한 정기적인 업데이트와 인사이트를 제공하는 YouTube 채널을 구독하여 인공 지능 연구의 최신 발전을 경험하세요.