자기 주의 안내: 확산 모델의 샘플 품질 개선하기
노이즈 제거 확산 모델은 반복적인 노이즈 제거 절차를 통해 이미지를 생성하도록 설계된 고급 인공 지능 프레임워크입니다. 이 모델은 분류기 안내 및 분류기 없는 안내와 같은 텍스트 또는 분류 기반 안내 전략에 의존하기 때문에 고품질의 다양한 이미지를 생성하는 데 있어 놀라운 다목적성을 보여줍니다. 안내 단서를 통합하면 이러한 모델이 생성하는 시각적 충실도가 크게 향상되는 것으로 나타났습니다.
다양한 시나리오에서 확산 모델과 안내 전략의 효과에도 불구하고 특정 환경 요인에 직면할 경우 제약을 받을 수 있습니다. 분류를 통합하는 두 가지 인기 있는 접근 방식, 즉 훈련 중에 라벨을 제거하는 분류기 없는 안내(CFG)와 분류기를 추가로 준비해야 하는 분류기 안내(CG)는 각각 엄격한 전제 조건에 의존하기 때문에 본질적인 제약이 있습니다. 이러한 전제 조건은 적응성에 한계를 부과하고 미리 정해진 환경 외에는 활용도를 제한합니다.
이전 방법의 단점을 극복하기 위해 연구자들은 확산 모델의 중간 단계에서 도출된 정보를 활용하여 고품질 이미지를 생성하는 자기주의 유도(SAG)라는 혁신적인 기술을 개발했습니다. 이 글에서는 SAG와 이 분야의 기존 주요 접근 방식 간의 메커니즘, 방법론, 성능 비교에 대해 자세히 살펴봅니다.
반복적인 노이즈 제거 절차를 통해 노이즈에서 이미지를 생성하는 기능으로 잘 알려진 노이즈 제거 확산 모델(DDM)은 최근 몇 년 동안 큰 주목을 받고 있습니다. 이러한 성공은 확산 유도 기법을 활용했기 때문일 수 있습니다. 그러나 정확도 향상과 노이즈 수준 감소와 같은 장점에도 불구하고 DDM과 가이드 기반 접근 방식은 복잡성이 증가하고 계산 비용이 증가하는 문제도 있습니다.
자기주의 유도 방식은 기존의 확산 유도 기법의 제약을 해결하기 위한 대안으로 개발되었습니다. 이 혁신적인 접근 방식은 외부 입력의 필요성을 제거함으로써 확산 프레임워크를 안내하기 위한 다목적의 무조건적인 프레임워크를 제공합니다. 따라서 추가 조건이 필요한지 여부에 관계없이 기존의 확산 기반 접근 방식을 광범위하게 적용할 수 있습니다.
자기 주의 안내의 개념은 원칙의 일반화와 중간 데이터에 가치 있는 정보가 포함되어 있다는 이해에 의존합니다.이러한 기반을 바탕으로, SAG 접근 방식은 가우시안 블러 적용으로 인해 버려지는 정보를 활용하여 세밀한 부분을 손쉽게 제거할 수 있는 가우시안 블러의 장점을 활용하는 블러 가이던스를 도입했습니다. 블러 가이드는 적당한 수준에서 샘플 품질을 눈에 띄게 개선하지만, 광범위한 영역에 걸쳐 모호한 구조를 도입하면 그 효과가 감소합니다. 따라서 블러 가이드는 초기 입력과 손상된 입력에서 도출된 예상치를 일치시키는 데 어려움을 겪습니다. 더 큰 규모에서 블러 안내의 견고성과 효능을 강화하기 위해 자기 주의 구
자기 주의 안내는 이미지 내에서 중요한 세부 사항을 식별하기 위해 자기 주의 메커니즘의 중심성에 의존하는 기법입니다. 확산 모델에 의해 생성된 자기주의 지도를 활용함으로써 이 접근 방식은 주목할 만한 특징이 포함된 영역을 선택적으로 가리는 동시에 필요한 잔여 정보를 전달할 수 있습니다. 그 후, 이러한 주의 지도는 확산 과정의 반전 단계에 사용되어 시각적 충실도를 높이고 일종의 자기 조절을 통해 왜곡을 최소화합니다. 이 방법은 별도의 훈련이나 외부 입력 없이도 이러한 결과를 얻을 수 있습니다.

자기 주의 안내 접근법은 본질적으로 간결한 진술로 요약할 수 있습니다.
제안된 기법은 확산 기반 프레임워크 내에서 내부의 자기주의 메커니즘을 활용하여 추가적인 훈련이 필요하거나 외부 요인에 좌우되지 않고 합성 이미지의 시각적 충실도를 향상시키는 혁신적인 전략을 사용합니다. SAG 방식은 조건부 안내 기법을 조건이 없는 프레임워크로 일반화하여 추가 비용이나 외부 변수에 대한 의존 없이 모든 확산 모델과 원활하게 통합할 수 있도록 합니다. 또한, SAG 기법은 기존의 조건부 접근법을 보완하는 고유한 기능을 발휘하여 다양한 방법 및 모델과의 적응 가능한 통합을 통해 전반적인 효과를 강화하기 위해 노력합니다.
자기 주의 안내 접근 방식은 노이즈 제거 확산 모델, 샘플링 안내, 생성 AI 자기 주의 방법, 확산 모델의 내부 표현 결과와 같은 다양한 관련 기술에서 도출된 인사이트를 기반으로 합니다. 그럼에도 불구하고, 그 구현을 위해 주로 DDPM 또는 노이즈 제거 확산 확률론적 모델, 분류자 안내, 분류자 없는 안내, 확산 모델 내의 자기 주의 메커니즘에서 얻은 교훈에 의존하고 있습니다. 이러한 측면은 다음 섹션에서 자세히 살펴봅니다.
자체 주의 안내: 사전 준비, 방법론 및 아키텍처
노이즈 제거 확산 확률 모델 또는 DDPM
DDPM(노이즈 제거 확산 확률 모델)은 반복적인 노이즈 제거 프로세스를 통해 손상된 측정값으로부터 이미지를 재구성하는 강력한 기법입니다. 이 접근 방식은 확률론적 프레임워크를 사용하여 기본 확산 과정의 마르코비안 특성을 활용하여 원본 깨끗한 이미지의 추정치를 반복적으로 개선하는 것입니다. 기존의 DDPM 구현에서는 입력 이미지와 해당 분산 스케줄이 각 시간 단계에서 입력으로 제공되므로 이 확률적 패러다임이 적용되는 포워드 프로세스를 통해 고품질의 시각적 콘텐츠를 생성할 수 있습니다.
GAN 구현을 통한 분류기 및 분류기 없는 안내
생성적 적대 신경망(GAN)은 다양한 출력을 생성하는 능력에서 놀라운 다양성을 보여 주며, 연구자들은 이러한 기능을 자기주의 안내 프레임워크를 사용하여 확산 모델에 통합하는 방법을 모색하고 있습니다. 이 접근 방식은 네트워크의 생성 능력을 향상시키기 위해 보조 분류기를 활용하는 분류기 안내 메커니즘을 사용합니다. 또는 추가 분류기를 사용하지 않고 분류기 없는 안내 전략을 사용할 수도 있으며, 비슷한 결과를 얻을 수 있습니다. 그러나 이 방법은 의도한 목표를 달성할 수 있지만, 추가 레이블이 필요하기 때문에 계산 집약적이기 때문에 텍스트 입력이나 클래스 주석과 같은 추가 정보가 필요한 조건부 확산 모델에 프레임워크의 적용이 제한되고 모델 아키텍처가 더욱 복잡해집니다
확산 안내 일반화
확산 모델은 조건부 텍스트 생성 시 원하는 결과를 얻기 위해 분류기 및 분류기 없는 안내 방법에 의존합니다. 그러나 이러한 접근 방식은 각 시간 단계에서 추가 입력이 필요합니다. 구체적으로, 입력은 일반화된 조건과 이러한 일반화가 결여된 원본 데이터 포인트의 수정된 버전으로 구성됩니다. 이 일반화된 조건은 내부 또는 외부 요인 또는 둘 다와 관련될 수 있습니다. 지침을 생성하기 위해 일반화된 조건을 예측할 수 있다고 가정하는 가상의 회귀 모델이 사용됩니다.
자기 주의 지도를 이용한 이미지 품질 개선
일반화된 확산 지침은 교란된 샘플의 일반화된 상태 내에 존재하는 필수 정보를 식별하고 추출하여 확산 모델 프로세스의 반전을 위한 지침을 제공할 수 있음을 시사합니다.이러한 기반을 활용하여 자기 주의 안내 접근 방식은 확산 모델의 사전 학습 중에 발생하는 분포 불일치로 인한 잠재적 위험을 최소화하면서 역방향 작업에 필요한 관련 정보를 성공적으로 식별합니다.
흐림 안내
자기 주의 안내의 개념은 가우시안 필터를 사용하여 선형 컨볼루션 연산을 적용하여 출력 신호를 생성하는 기술인 가우시안 흐림에 의존합니다. 가우시안 블러는 표준편차가 증가함에 따라 입력 데이터에 존재하는 미세한 디테일을 점진적으로 감소시켜, 더 부드러운 요소를 적용함으로써 시각적으로 균일해지도록 합니다. 특히, 경험적 연구 결과에 따르면 원본 입력 신호와 그에 상응하는 가우시안 블러 출력 간의 정보 내용에 차이가 있으며, 후자가 더 미세한 디테일이 집중되는 경향이 있다고 합니다.
자기주의 안내 프레임워크는 확산 과정에서 중간 재구성에서 정보를 선택적으로 생략하고 이를 활용하여 시각적 콘텐츠와 주어진 입력 데이터의 관련성을 높이는 방향으로 모델의 예측을 유도하는 블러 안내라는 혁신적인 접근 방식을 사용합니다. 이 새로운 전략은 원래의 예측이 블러 처리된 입력 예측에서 더 멀어지도록 유도합니다. 가우시안 블러의 양성 특성 덕분에 출력 신호는 적당한 수준의 변경이 있더라도 초기 신호에 비해 합리적인 범위 내에서 유지됩니다. 기본적으로 자연스러운 이미지 블러는 직관적인 호환성으로 인해 사전 학습된 확산 모델에 가우시안 블러를 적용하는 강력한 근거로 작용합니다.
셀프 어텐션 가이던스 파이프라인은 가우시안 필터링을 도입한 다음 노이즈를 추가하여 성능을 향상시키는 두 가지 접근 방식을 사용합니다. 이 프로세스를 통해 우연에 의존하지 않고 콘텐츠에 대한 안내를 신뢰할 수 있습니다. 블러링 기법은 적당한 수준의 가이던스가 있는 모델에 적용할 경우 유망한 결과를 보여주지만, 다음 그림에서 볼 수 있듯이 더 큰 규모의 가이던스에서는 신뢰할 수 없는 결과물이 생성되어 유사한 결과를 재현하지 못하는 한계가 있습니다.

잠재적인 결과는 장면에서 빛의 광범위한 확산으로 인해 제안된 구조 내에서 발생하는 내재적 불확실성에서 비롯될 수 있으며, 이는 초기 예측과 저하된 예측의 정렬을 방해하여 궁극적으로 결정적이지 않은 출력 신호를 생성할 수 있습니다.
셀프 어텐션 메커니즘
확산 모델에는 일반적으로 전체 프레임워크 내에서 중요한 역할을 하는 내장형 셀프 어텐션 구성 요소가 통합되어 있습니다.이 셀프 어텐션 메커니즘은 확산 모델의 핵심으로, 생성 과정에서 입력 데이터의 가장 관련성이 높은 측면에 집중할 수 있게 해줍니다. 아래 그림에서 고주파수 마스크가 맨 위 줄에 표시된 것은 모델에서 강조 표시된 관심 영역을 나타내고, 셀프 어텐션 마스크는 아래 최종 생성 이미지의 해당 위치에 표시되어 이러한 마스크가 출력 형성에 어떻게 기여하는지 보여줍니다.

셀프 어텐션 가이드 접근 방식은 확산 모델과 유사한 전략을 사용하여 이미지 편집 작업에 셀프 어텐션 맵의 기능을 활용합니다. 이 방법은 출력에서 다른 영역의 무결성을 유지하면서 확산 프로세스에 의해 주의가 집중되는 입력 신호의 일부를 흐리게 처리합니다. 이를 통해 입력 데이터의 구조적 모호성 문제를 방지하고 원본 콘텐츠의 선명도를 유지합니다. 이를 위해 파이프라인은 일반화된 집계 곱(GAP) 풀링 또는 글로벌 평균 풀링을 통해 자체 관심도 맵의 집계를 생성하여 차원을 줄인 다음, 입력 신호의 해상도와 일치하도록 가장 가까운 이웃 보간을 사용하여 업샘플링합니다.
자기 주의 안내: 실험 및 결과
자기 주의 안내 파이프라인은 기능을 평가하기 위해 샘플링 목적으로 총 8개의 NVIDIA GeForce RTX 3090 그래픽 처리 장치를 활용하며, 이전에 학습된 IDDPM, ADM 및 안정 확산 모델 위에 구축됩니다.
자기 주의 안내를 통한 무조건 생성
조건부 모델과 비조건부 모델 모두에 대한 SAG 파이프라인의 효율성과 분류기 안내 및 분류기 자유 안내 방법과 구별되는 조건 독립적인 특성을 나타내는 능력을 평가하기 위해 5만 개의 인스턴스로 구성된 데이터 세트에서 무조건적으로 훈련된 모델을 사용한 실험을 수행했습니다.

SAG 파이프라인을 적용하면 무조건 입력에 대한 FID, sFID, IS 값이 향상되지만, 동시에 리콜이 감소하는 것으로 나타났습니다. SANGAN 프레임워크의 활용으로 인한 시각적 이점은 ADM과 스테이블 디퓨전 방법만을 사용하여 생성된 상단의 이미지와 SAG 파이프라인을 통합하여 ADM과 스테이블 디퓨전을 모두 사용하여 생성된 하단의 이미지를 비교하여 설명합니다.


SAG를 사용한 조건부 생성
현재 프레임워크에 자기주의 생성(SAG) 파이프라인을 통합한 결과, 무조건 생성에 관한 놀라운 결과가 입증되었으며, 특히 이 파이프라인은 조건에 무관심한 고유한 기능으로 인해 아무런 제한 없이 조건부 생성도 수용할 수 있습니다.
자기 주의 안내를 통한 스테이블 디퓨전
자기 주의 안내 파이프라인과 함께 스테이블 디퓨전 프레임워크를 통합하면 현저하게 향상된 뛰어난 결과를 얻을 수 있는 것으로 밝혀졌습니다. 이러한 증강 성능을 평가하기 위해 저희 팀은 스테이블 디퓨전 프로세스 내에서 빈 프롬프트와 함께 각 해당 이미지 쌍에 대해 무작위로 생성된 시드를 사용했습니다. 또한, 자기주의 안내 메커니즘을 포함하거나 제외한 총 500개의 이미지 세트를 포함하는 광범위한 인적 평가를 실시했습니다. 이러한 평가 결과는 아래에 시각적으로 표현되어 있습니다.

스테이블 디퓨전 프레임워크 내에 자기주의 안내(SAG)를 통합하면 텍스트-이미지 합성 작업에 대한 적용성이 크게 확장되는 것으로 나타났습니다. 이는 분류기 없는 안내와 SAG를 결합하여 아티팩트를 줄이면서 이미지 생성을 개선함으로써 달성할 수 있습니다. 이 접근법의 우수성은 다음 그림에서 볼 수 있듯이 기존 방식과 비교했을 때 분명하게 드러납니다.

현재의 한계
셀프 어텐션 가이드 파이프라인의 통합은 합성된 시각적 콘텐츠의 품질을 크게 향상시키는 것으로 나타났지만, 고려해야 할 몇 가지 제약 조건이 있습니다.
주요 제약 조건 중 하나는 분류자 안내 및 분류자 없는 안내 기술과의 호환성이 부족하다는 점입니다. 그럼에도 불구하고 다음 그림에서 볼 수 있듯이 SAG의 통합으로 FID 점수와 예측 성능이 눈에 띄게 향상되었으며, 이는 SAG 워크플로우에 기존 안내 전략을 원활하게 보완할 수 있는 추가 요소가 통합되었음을 나타냅니다.

신경망 기술을 통해 보다 효율적이고 정확한 기계 번역 시스템을 개발하는 데 상당한 진전이 있었지만, 여전히 복잡성과 계산 비용을 증가시키는 추가 학습 방법이 내재적으로 필요합니다.
또한 자기 주의 안내를 통합해도 메모리 사용량이나 처리 시간이 증가하지 않으므로 SAG 내에서 마스킹 및 블러 처리와 같은 작업으로 인한 추가 비용은 미미합니다. 그럼에도 불구하고 이 접근 방식은 전체 시스템 리소스에 미치는 영향이 미미함에도 불구하고 비안내 방식에 비해 추가 컴퓨팅 비용이 발생한다는 점을 인식해야 합니다.

최종 의견
본 담론에서는 높은 수준의 시각적 결과물을 제작할 때 확산 모델을 안내하기 위한 혁신적이고 포괄적인 프레임워크인 자기주의 안내의 개념을 살펴봅니다. 이 접근 방식은 확산 과정의 중간 단계에 내재된 정보도 방향의 원천이 될 수 있다는 포괄적 공식화의 기본 원칙에 기반을 두고 있습니다. 결과적으로 자기주의 안내 파이프라인은 다양한 확산 모델과 원활하게 작동하는 비규범적이고 편향되지 않은 전략으로, 자체 조절 메커니즘을 활용하여 합성 이미지의 원치 않는 아티팩트를 최소화하는 동시에 전반적인 충실도를 향상시킵니다.