데이터 민주화: 데이터 민주화: Apple과 UW의 데이터 필터링 네트워크가 대규모 학습 집합을 재정의하는 방법
인공지능 영역, 특히 언어 모델과 다중 모드 학습에서 광범위한 학습 데이터의 중요성은 기하급수적으로 커지고 있습니다. 그럼에도 불구하고 이러한 데이터 세트는 그 중요성에도 불구하고 연구자들의 집중적인 관심을 거의 받지 못하고 있으며, 상당수의 대규모 훈련 세트가 공개되지 않은 채로 남아 있습니다. 결과적으로 이러한 가용성의 부족은 일관된 데이터 세트 분석과 표준화된 방법론 개발에 부정적인 영향을 미칩니다.
Apple과 워싱턴 대학교가 공동으로 최근 발표한 “데이터 필터링 네트워크"라는 제목의 논문에서 효율적인 데이터 필터링을 위해 특별히 맞춤화된 신경망인 데이터 필터링 네트워크(DFN)의 혁신적인 개념을 소개합니다. 이 네트워크는 포괄적이고 우수한 품질의 사전 학습 데이터 세트를 생성하는 인상적인 능력이 입증되었습니다. 또한 DFN은 사전 학습 없이 초기화할 수 있으며, 기존 머신러닝 모델과 동일한 최적화 전략을 활용하여 성능을 향상시킬 수 있다는 점도 주목할 만합니다.
이 연구의 주요 목표는 데이터 세트 필터링 프로세스에 중점을 두고 있으며, 관리되지 않는 광범위한 데이터 세트의 존재를 당연하게 여깁니다. 조사 그룹은 다음과 같이 세 가지 주목할 만한 성과를 확인했습니다:
고품질 데이터 세트로 이어지는 데이터 필터링 네트워크의 특성을 특성화합니다. 연구팀은 DFN의 다양한 속성이 훈련 데이터의 품질에 미치는 영향을 조사한 결과, 고품질 데이터로만 훈련된 작은 대비 이미지-텍스트 모델이 최첨단 데이터 세트를 구축할 수 있다는 사실을 발견했습니다. 이러한 속성을 활용하여 DFN을 훈련하고 CLIP(Contrastive Image-Text Pre-trained) 모델을 유도하는 데이터 세트를 구축한 결과, 기존 데이터 세트에 비해 정확도가 우수하고 컴퓨팅 리소스와 정확도 간의 균형이 더 유리한 것으로 나타났습니다. 공공 데이터만을 사용해 고품질 데이터셋을 처음부터 구축할 수 있는 인사이트를 제공함으로써 대규모 고품질 데이터셋의 대중화에 기여합니다.
이 연구의 주요 목표는 잠재적으로 수조 개에 달할 수 있는 엄청난 수의 데이터 포인트를 필터링하는 매우 효과적인 방법을 개발하는 것입니다. 이 목표를 달성하기 위해 연구진은 사전 학습된 CLIP 모델을 증류 특징 네트워크(DFN)로 활용하여 특정 데이터 집합을 필터링합니다. 이렇게 필터링된 데이터 세트를 ‘유도 데이터 세트’라고 하고, 이 데이터 세트만으로 학습된 머신 러닝 모델을 ‘유도 모델’이라고 합니다.연구진은 특징 추출 및 정보 검색 측면에서 CLIP 모델의 성능을 평가함으로써 필터링 프로세스의 효율성을 측정할 수 있습니다.
차별적 필터링 네트워크(DFN)의 성능을 개선하기 위해 우리 팀은 우수한 품질의 상당한 데이터 세트에 사전 학습된 CLIP 모델을 적용하는 것으로 절차를 시작합니다. 이 초기 단계에 이어, 데이터 증강, 고유 가중치 초기화, 배치 크기 증가를 활용한 장기간의 훈련 세션 등 확립된 머신러닝 전략을 활용하여 일련의 반복적인 조정을 통해 필터링 구성 요소를 개선하여 향상된 결과를 달성합니다.
이 그룹이 수행한 연구에서 가장 성공적인 데이터 세트인 DFN-5B를 사용하면 특정 계산 제약 조건을 준수하면서 최첨단 CLIP 모델을 개발할 수 있다는 것이 실험을 통해 입증되었습니다. 이러한 발전 중 하나는 이 데이터 세트를 사용하여 훈련된 ViT-H 모델로, ImageNet 분류 작업에 적용했을 때 84.4%의 제로 샷 전송 정확도로 주목할 만한 성능을 보여주었습니다.
데이터 필터링 네트워크에 대한 이 선구적인 연구는 공개 소스에서 파생된 최상위 데이터 세트를 효과적으로 생성하기 위한 새로운 접근법을 제시함으로써 광범위한 데이터 세트의 접근성을 촉진하고 머신러닝 알고리즘의 잠재적 응용을 향상시킵니다.