AI 과대 광고 주기가 정점에 달하면서 벡터 데이터베이스가 주목받는 이유
최근 벡터 데이터베이스에 대한 관심이 급증하는 이유는 이 분야에 진출하는 스타트업 기업의 수가 증가하고 투자자들이 이러한 벤처를 재정적으로 지원하려는 의지가 높아졌기 때문일 수 있습니다. 이러한 현상은 대규모 언어 모델(LLM)의 광범위한 채택과 생성 인공 지능(GenAI)의 등장으로 벡터 데이터베이스 기술의 확장을 위한 토대를 마련한 덕분에 더욱 촉진되었습니다.
Postgres와 MySQL을 포함한 기존의 관계형 데이터베이스는 행과 열에 체계적으로 구성된 명확하게 정의된 데이터 유형으로 구조화된 데이터를 관리하는 데 탁월합니다. 그러나 이러한 시스템은 이미지, 동영상, 이메일, 소셜 미디어 게시물 등 미리 정해진 데이터 스키마를 따르지 않는 기타 형태의 콘텐츠와 같은 비정형 데이터를 처리하는 데는 어려움을 겪습니다.
벡터 데이터베이스는 벡터 임베딩을 활용하여 데이터를 수치로 표현함으로써 정보의 본질과 상호 관계를 포착합니다. 이러한 데이터베이스는 관련성에 따라 데이터를 저장함으로써 머신러닝 알고리즘의 핵심 요소인 의미론적으로 관련된 항목을 효율적으로 검색할 수 있습니다.
벡터 검색을 사용하면 OpenAI의 GPT-4와 같은 인공지능 모델이 유사한 과거 대화 패턴을 조사하여 대화의 맥락을 보다 효과적으로 이해할 수 있습니다. 또한 이 기술은 소셜 미디어 플랫폼과 온라인 마켓플레이스 내 콘텐츠 추천 등 다양한 실시간 시나리오에서 사용자의 최근 검색을 기반으로 관련 제품을 신속하게 식별하는 데 유용하게 활용될 수 있습니다.
벡터 검색은 초기 학습 세트에 없었을 수 있는 보충 데이터를 제공함으로써 대규모 언어 모델(LLM) 애플리케이션에서 ‘환각’을 완화할 수 있습니다.
“벡터 유사도 검색을 사용하지 않고도 AI/ML 애플리케이션을 개발할 수 있지만 더 많은 재교육과 미세 조정을 해야 합니다.” Andre Zayarni , 벡터 검색 스타트업 Qdrant 의 CEO 겸 공동 창립자는 이 사이트에 설명했습니다. “벡터 데이터베이스는 대규모 데이터 세트가 있고 벡터 임베딩을 효율적이고 편리한 방식으로 작업할 수 있는 도구가 필요할 때 유용합니다.”
지난 1월, Qdrant는 2,800만 달러의 자금을 확보하여 지난해 가장 빠르게 성장한 상용 오픈 소스 스타트업 10곳 중 하나로 선정되는 등 성장세를 이어가고 있습니다. 그리고 최근 현금을 조달한 유일한 벡터 데이터베이스 스타트업은 이뿐만이 아닙니다. Vespa, Weaviate , Pinecone, Chroma 는 작년에 다양한 벡터 제품을 위해 총 2억 달러의 자금을 모금했습니다.
Qdrant 창립 팀.이미지 크레딧: Qdrant
올해 들어서도 인덱스 벤처스 가 950만 달러 규모의 시드 라운드 에서 슈퍼링크드 , 복잡한 데이터를 벡터 임베딩으로 변환하는 플랫폼입니다. 그리고 몇 주 전, Y Combinator(YC)는 Lantern , 포스트그레스용 호스팅 벡터 검색 엔진을 판매하는 스타트업을 포함한 겨울 ‘24 코호트를 공개했습니다.
다른 곳에서는 Marqo 이 작년 말 440만 달러의 시드 라운드에 이어 2월에 1250만 달러의 시리즈 A 라운드 을 빠르게 모금했습니다. Marqo 플랫폼은 벡터 생성, 저장, 검색을 아우르는 모든 벡터 도구를 기본적으로 제공하여 사용자가 OpenAI나 Hugging Face와 같은 타사 도구를 사용하지 않아도 되며, 단일 API를 통해 모든 것을 제공합니다.
Marqo 공동 창립자 Tom Hamer 및 Jesse N. Clark 이전에 Amazon에서 엔지니어링 업무를 담당했던 이들은 텍스트와 이미지 등 다양한 양식에 걸쳐 의미론적이고 유연한 검색에 대한 ‘충족되지 않은 거대한 요구’를 깨닫게 되었습니다. 그리고 2021년에 Marqo를 설립하기 위해 뛰어들었습니다.
시각적 검색과 로봇 공학에 집중했던 Amazon에서 근무하는 동안 저는 상품 검색을 향상시키는 데 벡터 검색의 잠재적 적용 가능성에 흥미를 느끼게 되었습니다. 멀티모달 검색 기술을 활용하여 방대한 양의 이미지를 분석하여 느슨한 케이블이나 잘못 놓인 물건과 같은 불일치를 식별하는 작업을 하면서 이 분야에 대한 관심이 더욱 확고해졌습니다.
제시 클라크와 톰 해머로 구성된 마르코의 창립 듀오가 첨부된 이미지의 저작권을 갖고 있습니다.
엔터프라이즈 입력
현재 ChatGPT의 인기와 생성형 AI의 증가 추세로 인해 벡터 데이터베이스에 대한 관심이 높아지고 있지만, 이러한 도구가 모든 엔터프라이즈 검색 애플리케이션에 적합하지 않을 수 있다는 점을 인식하는 것이 중요합니다.
“전용 데이터베이스는 특정 사용 사례에 완전히 집중하는 경향이 있으므로 현재 설계에 맞춰야 하는 범용 데이터베이스에 비해 필요한 작업의 성능과 사용자 경험에 맞게 아키텍처를 설계할 수 있습니다.” 데이터베이스 지원 및 서비스 회사 Percona의 창립자 Peter Zaitsev 가 이 사이트에 설명했습니다.
전문 데이터베이스는 다른 것을 배제하고 한 가지에 탁월할 수 있지만, Elastic , Redis , OpenSearch 과 같은 기존 데이터베이스가 벡터 검색 기능을 추가하기 시작한 이유도 바로 이 때문입니다, Cassandra , Oracle , MongoDB 등이 벡터 데이터베이스 검색 기능을 추가했으며, Microsoft의 Azure, Amazon의 AWS, Cloudflare 과 같은 클라우드 서비스 제공업체도 이에 동참하고 있습니다.
자이체프는 이러한 최신 트렌드를 웹 앱이 널리 보급되고 개발자가 읽고 쓰기 쉬운 언어 독립적인 데이터 형식이 필요했던 10여 년 전의 JSON 과 비교합니다. 이 때 MongoDB와 같은 문서 데이터베이스의 형태로 새로운 데이터베이스 클래스가 등장했고, 기존의 관계형 데이터베이스도 JSON 지원을 도입했습니다 .
벡터 데이터베이스에서도 비슷한 패턴이 나타날 수 있으며, 매우 복잡하고 광범위한 AI 애플리케이션을 개발하는 사용자는 전문 벡터 검색 데이터베이스를 활용하는 반면, 기존 소프트웨어 시스템에 일부 AI 기능을 통합하려는 사용자는 기존 데이터베이스의 벡터 검색 기능에 의존하게 될 것이라고 Zaitsev는 보고 있습니다.
Zayarni와 그의 팀은 벡터만을 기반으로 하는 네이티브 솔루션이 벡터 검색을 추가 기능으로 추가하는 솔루션에 비해 증가하는 벡터 데이터의 양을 처리하는 데 더 효율적인 접근 방식을 제공한다고 믿습니다. 이들은 이러한 네이티브 솔루션이 나중에 벡터 검색을 통합하려는 솔루션보다 더 빠른 속도, 향상된 메모리 안전성, 향상된 확장성을 제공할 수 있다고 주장합니다.
저희 회사에서는 포괄적인 서비스 제품군의 일부로 벡터 및 비벡터 검색 기능을 모두 제공합니다. 당사의 접근 방식은 한 가지 유형의 검색 방법론에만 집중하는 다른 업체와는 다릅니다. 특정 옵션을 옹호하기보다는 고객이 기존 기술 리소스를 활용하는 것부터 시작하도록 조언합니다. 그러나 사용자 요구사항을 효과적으로 해결하기 위해 보다 고급 벡터 검색 기술이 필요한 시기가 올 수도 있습니다.