ReffAKD: 학생 모델에서 지식 증류를 촉진하기 위한 소프트 라벨을 생성하는 머신 러닝 방법
심층 신경망, 특히 컨볼루션 신경망(CNN)은 이미지 분류, 물체 인식, 의미 분할 등 광범위한 컴퓨터 비전 애플리케이션에 큰 영향을 미쳤습니다. 고급 모델의 등장으로 성능이 눈에 띄게 향상되었습니다. 하지만 임베디드 시스템이나 엣지 디바이스와 같이 처리 능력이 제한된 하드웨어 플랫폼에서 이러한 연산 집약적인 아키텍처를 사용하려면 엄청난 장애물이 존재합니다.
지식 증류는 보다 광범위한 ‘교사’ 모델의 안내를 받는 소규모 ‘학생’ 모델을 개발하는 데 효과적인 접근 방식으로 각광받고 있습니다. 이 방법은 교육 단계에서 교사 모델이 보유한 지식을 추출하여 학생 모델에 전달하는 것입니다. 그러나 이 과정에는 리소스가 많이 필요한 교사 모델을 훈련시켜야 하는 등 몇 가지 어려움이 있습니다.
이전 연구에서는 지식 증류의 맥락에서 서로 다른 클래스에 속할 확률을 나타내고 클래스 내 변이를 포착하는 소프트 라벨의 잠재력을 활용하기 위한 다양한 접근 방식을 탐구했습니다. 여기에는 대규모 교사 모델의 영향력을 조사하고 크라우드 소싱된 소프트 라벨의 효과를 테스트하거나 단계 간 지식 전달을 분리하는 것이 포함되었습니다. 또한 일부 연구자들은 하드 라벨에서 파생된 정규화 분포를 수동으로 생성하여 교사 없이 지식 증류를 수행하려고 시도하기도 했습니다.
광범위한 교사 모델이나 값비싼 크라우드소싱에 의존하지 않고 정확한 소프트 라벨을 생성하는 한 가지 잠재적 해결책은 재구성을 통해 압축 데이터 표현을 학습할 수 있는 신경망인 자동 인코더를 활용하는 것입니다. 그림 3에 설명된 ReffAKD 방법은 자동 인코더를 사용하여 중요한 특징을 추출하고 클래스 간의 유사성 점수를 계산함으로써 이 개념을 활용하여 교사 모델의 훈련 없이도 교사 모델의 기능을 시뮬레이션할 수 있습니다.
ReffAKD의 접근 방식은 각 클래스를 구분하는 특성을 본질적으로 구현하는 입력 이미지의 인코딩된 표현을 생성하도록 자동 인코더를 훈련시켜 소프트 레이블을 무작위로 할당하는 것과 다릅니다. 이 암시적 인코딩은 숙련된 강사가 복잡한 클래스 구분을 이해하는 방식과 유사한 방식으로 다양한 클래스 간의 본질적인 차이점을 포착합니다.그 결과 다양한 범주를 구분하는 변별적 속성에 대한 고도의 민감도를 획득하여 시각적 측면과 관련 분류에 관한 상당한 정보를 포괄하며 숙련된 교육자의 지혜를 시뮬레이션합니다.
ReffAKD는 핵심에 복잡하게 설계된 컨볼루션 자동 인코더(CAE)를 사용합니다. 인코더는 3개의 순차적 컨볼루션 레이어로 구성되며, 각 레이어는 4x4 커널 크기, 1픽셀 패딩, 2의 보폭을 갖습니다. 이 구성은 필터 수를 12개에서 24개로, 이후 48개까지 점진적으로 향상시킵니다. 압축점은 사용되는 특정 데이터 세트에 따라 다양한 차원을 가정하는 압축된 특징 벡터를 생성합니다(예: CIFAR-100의 경우 768, Tiny ImageNet의 경우 3072, Fashion MNIST의 경우 48). 반대로 디코더는 인코더의 구조를 재조립하여
지식 증류 과정은 학습 단계에서 자동 인코더에 의해 촉진됩니다. 자동 인코더는 입력 이미지를 클래스별 속성을 본질적으로 통합하는 잠재적 표현으로 인코딩합니다. 즉, 표현이 다양한 카테고리를 구분하는 구별 요소에 맞게 조정됩니다.
데이터 세트 내에서 클래스 내 및 클래스 간 관계를 확인하기 위해 연구자들은 두 가지 접근 방식을 사용했습니다. 처음에는 데이터 세트에 존재하는 여러 클래스 각각에서 40개의 인스턴스를 무작위로 선택했습니다. 그 후, 이 인스턴스들은 분석을 위해 숫자 벡터로 변환하는 인코딩 프로세스를 거쳤습니다. 결과 벡터 간의 코사인 유사도를 계산하여 행렬을 만들었는데, 이 행렬은 개별 클래스에 해당하는 행과 해당 클래스와 다른 클래스 간의 유사도 측정값을 나타내는 열로 구성되었습니다. 연구진은 결과를 더욱 세분화하기 위해 평균 집계와 소프트맥스 정규화 기법을 모두 적용했습니다. 궁극적으로 이 방법은 다양한 클래스 간의 복잡한 연결을 캡슐화하는 동시에 각 클래스 내의 구분을 묘사하는 소프트 확률 분포를 생성했습니다.
연구자들은 학생의 출력과 자동 인코더가 생성한 소프트 라벨 사이에 교차 엔트로피 손실과 쿨백-라이블러 발산을 통합하여 학생 모델을 훈련하는 데 적응형 손실 함수를 활용합니다. 이 방법은 학생이 실제 클래스 레이블과 소프트 레이블 내에서 포착된 복잡한 관계를 모두 이해하도록 촉진합니다.
참조: https://arxiv.org/pdf/2404.09886.pdf
전통적인 지식 증류 방법과 비교하여 그 효과를 평가하기 위해 CIFAR-100, Tiny Imagenet, Fashion MNIST를 포함한 여러 데이터 세트에 대해 ReffAKD를 평가했습니다. 각 작업에서 ReffAKD는 표준 접근 방식에 비해 일관된 개선을 보여줬으며, CIFAR-100에서는 77.97%(기존 KD의 77.57% 대비)의 정확도를, Tiny Imagenet에서는 63.67%(63.62% 대비)의 정확도를 기록해 최고 수준의 정확도를 달성했습니다. 특히, 이 모델은 그림 5에 표시된 것처럼 덜 까다로운 패션 MNIST 데이터 세트에서 주목할 만한 결과를 얻었습니다. 특히 복잡한 데이터 세트를 처리할 때 놀라운 리소스 효율성을 보여주었습니다.
ReffAKD의 적용 범위는 컴퓨터 비전을 넘어 자연어 처리 분야에도 적용될 가능성이 있습니다. 예를 들어, RNN 기반 자동 인코더를 활용해 문장 임베딩을 생성함으로써 텍스트 분류 작업을 위한 TinyBERT 또는 기타 BERT 변형과 유사한 소형 모델을 개발할 수 있습니다. 또한 연구진은 이 방법론이 보다 광범위한 모델에 직접 감독을 제공하여 기존 교사 모델에 의존하지 않고도 추가적인 성능 향상을 가져올 수 있을 것으로 예상하고 있습니다.
ReffAKD는 딥러닝 영역에서 지식 증류 기술에 대한 민주적 접근을 촉진하는 중요한 발전을 제시합니다. 고가의 교사 모델에 대한 필요성을 제거함으로써 제한된 자원으로 작업하는 연구자와 실무자가 이러한 방법을 보다 효율적이고 편리하게 활용할 수 있게 해줍니다. 이러한 발전은 컴퓨터 비전의 경계를 뛰어넘어 다양한 분야에 걸쳐 실험의 문을 열고 더 나은 결과를 위한 결합 전략에 대한 조사를 용이하게 합니다.
논문 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
놓치고 싶지 않은 독점 콘텐츠와 업데이트를 접할 수 있는 좋은 기회인 만큼, 저희의 노력에 감사하는 분들을 진심으로 뉴스레터 구독에 초대합니다.
현재 40,000명 이상의 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
콘텐츠 파트너십을 원하시면 여기에서 이 양식을 작성하세요.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 등 저명한 기관의 관계자를 비롯하여 이 분야의 저명한 인사들이 구독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.