LMEraser: 개인정보 보호와 효율성을 보장하는 대규모 모델을 위한 새로운 머신 언러닝 방법
BERT, GPT-3, T5와 같은 대규모 언어 모델은 엄청난 수의 파라미터와 포괄적인 학습 데이터 세트를 보유하고 있어 미묘한 패턴을 식별하고 놀라운 정확도를 달성할 수 있습니다. 하지만 이러한 활용도가 높아짐에 따라 무단 공개로 인한 사용자의 민감한 정보 유출 가능성에 대한 우려가 제기되고 있습니다. 이러한 문제를 해결하기 위해 사전 학습된 모델에서 특정 데이터를 선택적으로 추출할 수 있는 머신 언러닝이 대안으로 제시되고 있으며, 이는 지식을 완전히 철회할 필요 없이 특정 데이터를 선택적으로 추출할 수 있습니다. 현재의 언러닝 전략은 소규모 모델에서는 효과적이지만, 영향력 있는 데이터를 정확하게 식별하고 계산 부담을 관리하며 데이터 삭제 시 성능 수준을 보존하는 등 보다 광범위한 모델과 관련된 복잡성을 해결하기 위해서는 개선이 필요합니다.
IEEE 연구원들은 머신 러닝의 개인정보 보호 문제를 해결하는 대규모 모델을 위한 효율적인 언러닝 방법인 LMEraser 을 개발했습니다. LMEraser는 데이터 세트를 공개 및 비공개 세그먼트로 분할하는 분할 및 정복 접근법을 사용합니다. 적응형 프롬프트 튜닝을 활용해 데이터 영향을 분리함으로써 모델 성능을 유지하면서 계산 비용을 절감합니다. 사전 학습 후 백본 파라미터를 동결하고 적응형 프롬프트 튜닝 메커니즘을 사용함으로써 LMEraser는 정확도에 미치는 영향을 최소화하면서 정밀한 언러닝을 달성합니다. 실험 결과, 학습 해제 비용이 크게 감소한 것으로 나타나 LMEraser는 대규모 모델 개인정보 보호를 위한 선구적인 솔루션으로 자리매김했습니다.
프롬프트 튜닝은 입력 데이터에 “프롬프트"로 알려진 학습 가능한 작은 벡터를 추가하여 사전 학습된 모델을 새로운 작업에 맞게 조정할 수 있는 효과적인 방법으로, 광범위한 재학습이 필요하지 않습니다. 이 접근 방식은 상당한 계산 효율성을 제공하여 하나의 모델로 여러 작업을 동시에 처리할 수 있습니다. 시각적 프롬프트 튜닝에 사용되는 시각 트랜스포머(ViT)는 이미지 표현에 프롬프트를 통합하는 VPT 및 VP와 같은 접근 방식을 포함하여 이러한 맥락에서 인기 있는 도구로 부상하고 있습니다. 또한 머신 언러닝은 학습 프로세스를 전면적으로 다시 시작할 필요 없이 학습된 모델에서 특정 정보를 선택적으로 제거함으로써 개인 정보를 보호하는 데 중요한 역할을 합니다. 정확한 방법으로 데이터의 영향을 완전히 제거하기 위해서는 상당한
LMEraser는 광범위한 모델의 정보를 효과적으로 관리하기 위해 다각적인 전략을 채택하여 개인정보 보호 문제와 언러닝 문제를 모두 해결합니다.우선, 데이터 세트는 민감한 세부 정보를 분리하기 위해 공개 부분과 기밀 부분으로 나뉩니다. 그 후, 모델의 핵심 구성 요소는 접근 가능한 데이터로만 학습되어 개인정보 침해를 방지하고 불안정성으로부터 모델을 보호합니다. 또한, 개인 데이터는 다양성에 따라 동적으로 그룹화되어 맞춤형으로 신속하게 미세 조정할 수 있습니다. 이러한 대응 전략은 데이터 삭제가 필요할 때 영향을 받는 그룹에 대해서만 프롬프트와 분류 헤드를 재조정함으로써 경제적인 삭제를 보장합니다. 결과적으로 LMEraser는 완전한 모델 재교육 없이도 세심한 삭제 작업을 수행하여 성능과 프라이버시를 보존합니다.
LMEraser의 평가는 모델 기능과 효율적인 삭제라는 두 가지 주요 측면을 중심으로 이루어집니다. 모델 성능은 이미지 분류 정밀도를 통해 측정되며, 학습 과정 중 성능 저하가 발생하지 않도록 보장합니다. 효율성은 계산 시간과 리소스 사용률에 따라 결정되며, 테스트 목적으로 ImageNet-22K를 비롯한 다양한 데이터 세트와 CIFAR-10, CIFAR-100, GTSRB, SVHN과 같은 소규모 데이터 세트를 사용합니다. 처음부터 다시 시작하거나 SISA와 같은 대안과의 비교는 NVIDIA Tesla V100-FHHL GPU와 PyTorch 버전 2.1.2를 사용하면서 CUDA 12.1을 활용하여 수행되었습니다. 경험적 결과에 따르면 LMEr
요약하면, LMEraser는 대규모 모델에서 민감한 정보를 최대한 정밀하게 삭제할 수 있는 최첨단 솔루션을 제공하는 혁신적인 방법입니다. 프롬프트 튜닝 매개변수를 신중하게 조정하여 성능 저하 없이 기밀 데이터가 모델 출력에 미치는 영향을 효과적으로 격리합니다. 신속한 튜닝의 지능적인 조정은 신속한 학습 취소의 필요성과 최적의 모델 성능 유지 사이에서 능숙하게 균형을 유지합니다. 엄격한 테스트를 통해 엄격한 개인정보 보호 지침을 준수하면서 정확한 결과를 제공하는 LMEraser의 우수성이 입증되었으며, 다양한 데이터 세트와 광범위한 모델 구조에 대한 범용성을 보여주었습니다.
논문 및 Github 을 확인하세요. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들께는 뉴스레터 구독을 통해 저희의 최신 노력과 업데이트에 대한 정보를 얻을 수 있는 좋은 기회이니 많은 구독을 부탁드립니다.
머신러닝 서브 레딧에서 40,000명 이상의 회원으로 구성된 광범위한 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
콘텐츠 파트너십을 원하시면 여기에서 이 양식을 작성하세요.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 등 저명한 기관의 주요 전문가들이 열심히 읽고 있는 빠르게 확장되고 있는 AI 연구 뉴스레터를 구독하세요.