제너레이티브 AI가 이미지 검색을 재정의하는 방법

최근 생성형 인공지능의 발전은 원본 텍스트, 오디오 및 시각 콘텐츠를 생성할 수 있는 능력으로 인해 상당한 관심을 불러일으키고 있습니다. 그러나 제너레이티브 AI의 잠재력은 새로운 데이터를 발명하는 영역을 넘어선다는 점을 인식해야 합니다.
트랜스포머와 확산 모델을 포괄하는 생성형 인공지능의 기술적 기반은 다양한 애플리케이션에 적용될 수 있는 막대한 잠재력을 가지고 있습니다. 이러한 응용 분야 중 하나는 정보 검색 및 발견으로, 제너레이티브 AI는 이미지 검색을 근본적으로 바꾸고 시각적 데이터를 탐색할 수 있는 새로운 길을 열어 이전에는 불가능했던 가능성을 제공합니다.
제너레이티브 인공 지능의 발전은 사용자가 이미지 검색과 상호 작용하는 방식에 큰 영향을 미치고 있으며, 이러한 발전의 중요성을 이해하기 위해서는 이러한 발전을 이해하는 것이 필수적입니다.
이미지 및 텍스트 임베딩
기존의 이미지 검색 방식은 캡션, 키워드, 이미지와 관련된 기타 메타데이터와 같은 텍스트 기반 주석에 의존합니다. 따라서 이 방식은 검색 결과의 범위를 각 사진에 의도적으로 포함된 데이터로 제한합니다. 따라서 사진을 업로드하는 사용자는 자신의 이미지를 찾을 수 있도록 사용자가 사용할 수 있는 검색 쿼리 유형을 신중하게 고려해야 합니다. 마찬가지로, 이미지 검색을 수행할 때 검색어를 구성하는 사용자는 업로드자가 사진에 어떤 종류의 라벨을 붙였을지 상상해 보려고 노력해야 합니다.
이미지는 언어가 표현할 수 있는 것 이상의 방대한 의미를 전달할 수 있다는 격언이 있습니다. 사진의 뉘앙스는 주관적으로 해석될 수 있으며, 보는 사람의 관점에 따라 다양한 설명이 나올 수 있습니다. 또한 사진 속에는 피사체, 스타일, 조명, 장소 등의 디테일이 부족하여 발견에 방해가 되는 경우가 많습니다. 적절한 정보 없이 수많은 사진이 게시되어 이러한 문제를 더욱 악화시키는 것은 안타까운 일입니다.
AI 이미지 검색은 현대 사회에서 필수적인 도구가 되었으며, 여러 조직에서 독자적인 기술을 활용하여 다양한 방법을 사용하고 있습니다. 그럼에도 불구하고 이러한 모든 시스템에는 몇 가지 기본적인 측면이 보편적으로 존재합니다.
인공지능 이미지 검색을 비롯한 수많은 딥러닝 아키텍처의 핵심에는 임베딩이라는 개념이 있습니다. 임베딩은 다양한 형태의 데이터에 대한 숫자 인코딩을 구성합니다. 예를 들어, 512x512 해상도의 이미지는 약 26만 개의 개별 픽셀 또는 특성으로 구성됩니다.임베딩 모델의 목적은 방대한 이미지에 대한 집중적인 훈련을 통해 시각 정보의 간결하고 저차원적인 표현을 식별하는 것입니다. 이미지 임베딩의 유용성은 단순한 압축과 새로운 이미지 생성을 넘어 여러 사진 간의 시각적-공간적 유사성을 평가하는 데에도 활용될 수 있습니다.
공통 메커니즘의 활용은 이미지 외에도 텍스트와 같은 다양한 양식에 적용됩니다. 특히, 텍스트 임베딩 모델은 서면 구절 내의 물질에 대한 축소된 차원 묘사를 구성합니다. 이러한 임베딩은 방대한 양의 데이터를 통합하여 유사성 검색 및 언어 모델의 크기를 향상시키는 등 여러 가지 실용적인 애플리케이션을 포함합니다.
이미지 및 텍스트 임베딩
AI 이미지 검색 작동 방식
하지만 이미지와 텍스트 임베딩을 함께 학습하면 상황이 훨씬 더 흥미로워집니다. LAION과 같은 오픈 소스 데이터 세트에는 수백만 개의 이미지와 그에 해당하는 텍스트 설명이 포함되어 있습니다. 이러한 이미지/캡션 쌍에 대해 텍스트와 이미지 임베딩을 함께 학습시키거나 미세 조정하면 시각 정보와 텍스트 정보 간의 연관성을 학습할 수 있습니다. 이것이 바로 대비 이미지-언어 사전 학습과 같은 딥러닝 기법의 기본 개념입니다( CLIP ).
텍스트와 이미지의 공동 임베딩을 학습하는 CLIP 모델 (출처: OpenAI)
앞서 언급한 프로세스에는 임베딩을 사용하여 텍스트 설명을 시각적 표현으로 변환할 수 있는 장치를 활용하는 것이 수반됩니다. 조인트 모델에 주어진 텍스트를 제공하면 텍스트 임베딩과 관련 이미지 임베딩이 모두 생성됩니다. 이후 이미지 임베딩을 기존 데이터베이스에 있는 이미지와 비교하여 가장 밀접하게 관련된 이미지를 검색할 수 있습니다. 이 기본적인 절차는 인공지능 이미지 검색의 기초가 됩니다.
본 발명의 메커니즘은 이러한 정보가 메타데이터에 포함되지 않은 경우에도 시각적 속성에 대한 텍스트 설명을 통해 이미지를 검색할 수 있다는 점에서 탁월성을 지니고 있습니다. ‘아침 안개에 둘러싸인 울창한 숲, 렌즈 플레어가 비추는 우뚝 솟은 소나무, 초록빛 카펫 위에 흩어져 있는 버섯’과 같이 다양한 검색어를 사용할 수 있습니다.
123RF
로 AI 이미지 검색 이미지 검색에 인공 지능을 활용함으로써 검색어와 일치하는 다양한 시각적 묘사를 쉽게 찾아낼 수 있었습니다. 이러한 이미지 중 일부는 설명 텍스트에 특정 핵심 용어가 포함되어 있지 않았지만, 이미지에 포함된 표현은 제가 검색한 검색어와 일치했습니다.AI 기술의 도움이 없었다면 관련 이미지를 식별하는 능력은 불가능하지는 않더라도 상당히 어려웠을 것입니다.
검색에서 생성까지
개인이 검색하는 특정 이미지를 찾을 수 없는 경우 AI 기반 검색이 해당 이미지를 찾지 못할 수 있습니다. 그러나 생성 AI 기술을 활용하면 다음 두 가지 방법 중 하나를 통해 원하는 결과를 얻을 수 있습니다.
이 프로세스에는 주어진 입력을 기반으로 완전히 새로운 시각적 표현을 생성하는 과정이 포함됩니다. 이를 위해 스테이블 디퓨전 또는 DALL-E와 같은 생성 모델이 쿼리에 대한 임베딩을 생성하고 이를 활용하여 원하는 이미지를 생성합니다. 이러한 생성 모델은 CLIP과 같은 공동 임베딩 모델과 트랜스포머 및 확산 모델을 포함한 다양한 아키텍처를 활용하여 임베딩의 수치 값을 시각적으로 매력적인 출력으로 변환합니다.
CLIP과 확산을 사용하여 텍스트에서 이미지를 생성하는 DALL-E (출처: OpenAI)
다른 방법으로는 기존 이미지를 활용하고 생성 모델을 사용하여 원하는 대로 수정하는 방법이 있습니다. 앞서 설명한 것처럼 버섯은 이미지에 없습니다. 적절한 이미지를 선택하고 제너레이티브 모델을 활용하여 버섯을 통합하면 원하는 결과를 얻을 수 있습니다.
AI 생성 이미지 (출처: 123RF)
제너레이티브 인공 지능의 출현으로 탐험과 상상력의 전통적인 구분이 무너지는 완전히 새로운 패러다임이 탄생했습니다. 이 혁신적인 접근 방식을 통해 사용자는 단일 인터페이스 내에서 시각적 콘텐츠를 발굴하는 것부터 조작하거나 독창적인 작품을 제작하는 것까지 원활하게 전환할 수 있으므로 두 영역 사이의 경계가 모호해지고 창의적인 가능성의 새로운 시대가 열립니다.