데이터스택스, 오픈소스 랭스트림 프로젝트로 이벤트 중심 AI를 지향하다
제너레이티브 AI는 정적 데이터 소스에서 작동하는 경우가 많지만, 조직이 실시간 스트리밍 데이터의 이점을 활용하고 싶다면 어떻게 해야 할까요? 이것이 바로 DataStax 가 주도하는 새로운 LangStream 오픈 소스 프로젝트를 뒷받침하는 목표 중 하나입니다.
LangStream 프로젝트는 9월 13일에 DataStax에 의해 조용히 소프트 런칭되었으며, 그 후 몇 주 동안 빠르게 반복되어 오늘 통합 지점을 확장하여 기술을 더욱 유용하게 만드는 새 릴리스가 출시되었습니다. LangStream은 처음에는 DataStax의 AstraDB 데이터베이스에서만 작동했지만, 이제는 Milvus 과 Pinecone .
LangStream은 흔히 ‘움직이는 데이터’라고 하는 스트리밍 데이터 소스의 처리를 용이하게 하고, 들어오는 이벤트가 후속 작업을 시작할 수 있는 이벤트 중심 시스템의 개발을 지원합니다. 이러한 이벤트 중심 시스템은 새로운 데이터 스트림을 활용하는 실시간 애플리케이션의 기반이 됩니다. 따라서 제너레이티브 모델은 반응형 출력을 생성하거나 할당된 작업을 수행하기 위해 가장 최근의 컨텍스트 관련 정보를 통합합니다.
DataStax의 스트리밍 엔지니어링 책임자인 크리스 바톨로뮤는 최근 본지와의 독점 인터뷰를 통해 이벤트 기반 접근 방식을 통해 생성형 인공 지능 애플리케이션을 생성하는 수단으로서 LangStream에 대해 논의했습니다.
바톨로뮤는 스트리밍 데이터 벤더인 Kesque의 창립자 겸 CEO를 역임한 바 있으며, 2021년 DataStax에 인수된 바 있어 스트리밍 데이터 분야에서는 낯선 사람이 아닙니다. Kesque는 오픈 소스 Apache Pulsar 스트리밍 데이터 프로젝트를 기반으로 기술을 개발했으며, 이 프로젝트는 현재 DataStax Astra Streaming 서비스의 기반이 되었습니다.
이벤트 기반 생성 AI를 구현하기 위한 LangStream의 작동 방식
LangStream은 현재 Apache Pulsar에 의존하지 않고, 오늘날 이벤트 데이터 스트리밍에 널리 사용되는 오픈 소스 Apache Kafka 기술을 활용하고 있습니다.
LangStream은 메시지 또는 발생을 수신하여 처리하고 전파하는 기존의 스트림 처리 패러다임을 채택합니다. 이 프레임워크는 검색 증강 생성(RAG)을 지원하기 위해 벡터 데이터베이스 시스템과 통합할 때 매우 유리하며, 재생 인공 지능 모델이 현재 정보를 활용할 수 있도록 지원합니다.
수신 데이터 스트림에서 벡터 임베딩을 생성하려면 스트리밍 데이터의 실시간 특성을 수용하기 위한 효율적인 동기식 데이터 파이프라인이 필요합니다.이 점이 바로 사용되는 특정 벡터 임베딩 기술에 관계없이 이러한 플랫폼을 제공하는 LangStream의 역할입니다. 현재 LangStream은 독점적인 대안 외에도 Hugging Face의 오픈 소스 리소스 및 Google의 Vertex AI를 통해 제공되는 모델을 포함하여 다양한 모델을 지원합니다.
연사는 자신들의 작업이 주로 스트림 기반의 이벤트 중심 접근 방식을 일반 AI 애플리케이션에 통합하는 데 중점을 두고 있다고 강조했습니다.
LangStream의 미래
LangStream은 아직 초기 단계에 있지만, 사용자 기반이 급증하면서 향후 성장과 발전 가능성이 매우 높다는 것을 보여주는 등 발전 속도가 빠르고 유망합니다.
데이터스택스의 최고 기술 책임자이자 수석 부사장인 다보르 보나치(Davor Bonaci)는 LangStream이 생성형 인공 지능으로 작업하는 개발자에게 상당한 이점을 제공한다고 강조했습니다. 이 솔루션은 애플리케이션 개발을 간소화하는 동시에 다양한 데이터 소스의 조정을 용이하게 하여 대규모 언어 모델(LLM)을 위한 강력한 프롬프트를 생성합니다. 따라서 다양한 데이터 유형에 걸쳐 확장 가능하고 프로덕션에 바로 사용할 수 있는 다목적 AI 애플리케이션을 보다 쉽게 구축할 수 있습니다.
LangStream은 현재 오픈 소스 이니셔티브의 일환으로 개발 중인 소프트웨어 프로그램으로, 회사의 상업적 추구를 지원하는 데 중요한 구성 요소인 Apache Pulsar 및 Apache Cassandra 데이터베이스와 같은 다양한 기술적 노력에 협력하는 DataStax의 확립된 접근 방식에 부합합니다.
Bonaci는 DataStax가 항상 오픈 소스 커뮤니티와 협력하기 위해 노력해 왔으며, 특히 많은 개발자가 현재 활용하고 있는 기술과 관련된 또 다른 이니셔티브에 기여하는 것은 당연한 일이라고 언급했습니다.