인식 작업을 위한 딥 러닝을 최적화하는 얀 르쿤과 랜달 발레스트리에로
딥러닝은 해석 가능하고 보편적으로 적용할 수 있는 데이터 표현을 추출하기 위한 포괄적인 방법론을 개발하고자 합니다. 철저한 실험을 통해 자기 지도 학습이 최첨단 성능 측면에서 선두주자로 부상했지만, 재구성 기반 기법은 인간이 이해할 수 있는 재구성된 인스턴스를 생성하여 모델에 대한 정보에 기반한 평가를 가능하게 하는 능력으로 인해 계속해서 매력을 유지하고 있습니다. 그럼에도 불구하고 이러한 기법은 자기 지도 학습과 비교할 때 최적의 성능을 달성하는 데 있어서는 뒤쳐져 있으며, 정교한 튜닝이 필요합니다.
“재구성에 의한 학습은 지각에 대한 비정보적 특징을 생성한다"라는 제목의 최근 연구에서 연구원 Randall Balestriero와 Yann LeCun은 재구성 기반 학습을 통해 시각적으로 매력적인 재구성 샘플을 생성하는 이유를 조사하는 동시에 지각 작업에 효과적인 잠재적 표현을 생성하는 데 단점을 파악합니다.
세 가지 주요 요인을 파악합니다:
잘못 정렬된 특징은 상당한 재구성 능력을 가지고 있지만 고차원 하위 공간에 존재하기 때문에 지각 작업에 제한된 정보를 제공하는 반면, 하위 공간의 정보가 적은 특징은 이러한 작업에서 더 나은 성능을 발휘합니다. 지각에 적합한 특징의 학습이 지연되어 최대 픽셀 가변성을 담당하는 상위 하위 공간에 일찍 집중하는 데 유리하지만 지각 작업에는 불충분하게 대처합니다. 또한, 동일한 훈련 및 테스트 재구성 오류를 초래하는 매개변수 설정은 종종 지각 작업에 대한 효과에서 상당한 차이를 보입니다. 대표적인 예로 사용된 특정 딥러닝 모델에 따라 상위 1%의 분류 정확도가 약 50%에서 거의 90%까지 차이가 나는 것을 들 수 있습니다.
현재의 결과는 이미지 생성의 맥락에서 재구성 기반 기술을 구현하는 데 필요한 연장된 기간에 관한 귀중한 정보를 제공하지만, 마스크드 자동 인코더가 시각 인식에 활용되는 표현의 품질에서 상당한 개선을 보이는 이유에 대해서는 여전히 불분명합니다.
연구자들은 노이즈 제거 자동 인코더 모델 내에서 노이즈 분포를 전략적으로 제작함으로써 장애물 R1, R2, R3을 효과적으로 해결할 수 있음을 설명합니다. 특히 다른 노이즈 분포, 특히 가산 가우시안 노이즈에 비해 마스킹의 유리한 특성을 입증합니다.
또한 재구성 과제에서 표상 학습이 지각 과제로 전이되는 과정을 조사하여 특히 복잡한 배경, 확장된 클래스 수, 향상된 시각 해상도에 직면했을 때 이러한 목표 사이의 격차가 증가하는 것을 밝혀냈습니다. 또한 노이즈 분포가 습득한 지식과 후속 지각 작업의 조화에 미치는 영향을 평가하는 간결한 방법론을 제안하여 잠재적인 노이즈 분포 후보를 미리 선택할 수 있도록 합니다. 흥미롭게도 가산 가우스 잡음과 같은 일부 유형의 잡음 분포는 재구성 및 지각 작업을 조정하는 데 제한적인 유용성을 보입니다.
반대로, 연구자들은 특정 데이터 세트에 따라 맞춤형 조정이 필요하지만 마스킹이 실현 가능한 접근 방식이라는 점에 동의합니다. 이러한 일치된 의견은 마스킹 자동 인코더가 보여준 상당한 성능 향상과 일치하며, 그 결과 ImageNet 상위 1% 정확도가 약 50%에서 74%로 상승했습니다. 또한 연구진은 이번 연구가 시계열 및 자연어 처리 등 다른 분야의 재구성 기법 영역을 탐구하는 데 촉매제 역할을 할 것으로 기대하고 있습니다.
재구성에 의한 학습이 지각에 대한 비정보적 특징을 생성한다는 논문이 arXiv 에 게재되어 있습니다.