Contents

독점: 데이터브릭스, 고품질 RAG 앱 구축을 위한 새로운 도구 출시

브랜드 인지도를 높일 준비가 되셨나요? 이 페이지를 방문하여 AI 임팩트 투어의 후원자가 될 수 있는 가능성을 살펴보고, 이용 가능한 옵션을 알아보세요.

오늘 데이터 에코시스템의 주요 업체인 데이터브릭스 는 고객이 다양한 비즈니스 사용 사례를 대상으로 하는 고품질 LLM 앱을 구축, 배포 및 유지할 수 있도록 지원하는 데이터 인텔리전스 플랫폼용 새로운 검색 증강 생성(RAG) 도구를 발표했습니다.

즉시 프로덕션에 바로 사용할 수 있는 강력한 무작위 알고리즘 생성(RAG) 애플리케이션을 만들기 위한 최신 개발 도구 제품군을 출시하게 되어 기쁘게 생각합니다. 이러한 도구는 여러 소스에서 적시에 비즈니스 정보를 검색하고, 이 데이터를 특정 애플리케이션 요구사항에 맞게 조정된 적절한 모델과 원활하게 통합하며, 유해 콘텐츠와 같은 잠재적 함정에 대한 지속적인 시스템 감독 등 애플리케이션 제작 과정에서 흔히 발생하는 광범위한 장애물을 해결합니다.

검색 강화 세대 애플리케이션을 만들고 구현해야 하는 시급한 필요성에도 불구하고, 많은 조직은 원치 않거나 일관성 없는 응답을 방지하기 위한 적절한 안전장치를 구현하는 동시에 정확하고 최상위 수준의 결과물을 일관되게 제공하는 데 어려움을 겪고 있다고 데이터브릭스의 AI/ML 제품 담당 수석 디렉터인 크레이그 와일리(Craig Wiley)는 본지와의 최근 인터뷰에서 언급했습니다.

새로운 도구는 이 문제를 정확히 겨냥합니다.

RAG란 무엇이며 왜 어려운가요?

대규모 언어 모델은 매개변수화된 지식을 활용하여 일반적인 프롬프트에 대한 응답을 빠르게 생성하는 능력으로 인해 상당한 인기를 얻고 있습니다. 그러나 특정 주제를 더 잘 다루고 특히 내부 운영 영역에서 조직의 고유한 요구 사항을 충족하기 위해 검색 증강 생성(RAG)이 실행 가능한 솔루션으로 부상했습니다. 이 접근 방식은 전문화된 정보 소스를 활용하여 언어 모델의 성능을 개선함으로써 출력의 정확성과 신뢰성을 높이는 것입니다. 예를 들어, 인사 데이터를 사용하여 모델을 학습시키면 직원들의 다양한 문의를 효과적으로 지원할 수 있습니다.

RAG(리스크 조정 및 거버넌스)는 여러 단계의 복잡한 작업을 포함합니다. 여기에는 다양한 소스에서 현재의 정형 및 비정형 정보를 수집하고, 적절한 모델링 기법과 함께 정제하고, 사용자 상호 작용을 위한 효과적인 프롬프트를 만들고, 지속적인 모니터링을 통해 성과를 감독하는 등의 작업이 포함됩니다. 이 작업의 다면적인 특성으로 인해 각각의 RAG 애플리케이션을 관리하는 수많은 팀에서 최적의 결과를 얻지 못하는 경우가 많습니다.

데이터브릭스의 지원 방법

데이터브릭스의 데이터 인텔리전스 플랫폼은 이제 사용자가 다양한 구성 요소를 원활하게 통합하고 프로덕션 환경에 배포할 고품질 RAG 애플리케이션을 신속하게 개발할 수 있도록 지원함으로써 앞서 언급한 과제를 해결하는 RAG 도구를 제공합니다.

혁신적인 벡터 검색 및 기능 제공 기능을 통합하여 맞춤형 제공 계층에 정보를 공급하는 복잡한 데이터 처리 파이프라인을 구축할 필요가 없습니다. 이 시스템은 델타 테이블에서 정형 및 비정형 데이터를 원활하게 추출하고 동기화하여 언어 모델 앱에 최신 및 관련 엔터프라이즈 인텔리전스에 대한 액세스 권한을 부여함으로써 정확하고 맥락에 맞는 답변을 제공합니다.

“Unity 카탈로그는 제공된 데이터 세트의 오프라인 사본과 온라인 사본 간의 계보를 자동으로 추적하여 데이터 품질 문제를 훨씬 쉽게 디버깅할 수 있습니다. 또한 온라인과 오프라인 데이터세트 간의 액세스 제어 설정을 일관되게 적용하므로 기업은 민감한 독점 정보를 누가 볼 수 있는지 더 잘 감사하고 제어할 수 있습니다.” 데이터브릭스의 공동 창립자이자 엔지니어링 부사장 패트릭 웬델과 신경망 부문 CTO 한린 탕이 공동 작성한 블로그 게시물 .

AI 플레이그라운드와 MLflow 평가의 통합은 개발자가 Azure의 OpenAI 서비스, AWS의 Bedrock 및 Anthropic, Llama 2 및 MPT와 같은 오픈 소스 모델을 비롯한 다양한 소스의 모델을 활용할 수 있는 플랫폼을 제공합니다. 이러한 모델은 지연 시간, 독성, 토큰 수와 같은 성능 지표를 기반으로 평가할 수 있습니다. 궁극적으로 개발자는 모델 서빙을 통해 가장 성능이 좋고 비용 효율적인 모델을 사용해 프로젝트를 배포하는 동시에 더 나은 모델이 나올 경우 대체 옵션으로 전환할 수 있는 유연성을 유지할 수 있습니다.

/images/exclusive-databricks-launches-new-tools-for-building-high-quality-rag-apps.png

데이터브릭스 AI 플레이그라운드

데이터브릭스 인프라 내에서 전적으로 관리되는 대규모 언어 모델(LLM)의 포괄적인 패키지로 구성된 파운데이션 모델 API를 추가로 출시합니다. 이러한 모델은 토큰 사용량에 따라 점진적인 비용으로 애플리케이션에 활용할 수 있으며, 데이터 프라이버시를 강화하면서 재무 및 운영상의 이점을 모두 제공합니다.

RAG 애플리케이션을 배포하면 프로덕션 환경과 수요 증가에 따른 성능을 모니터링하는 것이 필수적입니다. 이러한 경우, 당사의 포괄적인 레이크하우스 모니터링 서비스를 활용하여 모든 측면에서 최적의 기능을 보장할 수 있습니다.

레이크하우스 모니터링은 고급 알고리즘을 사용하여 애플리케이션에서 생성된 콘텐츠를 분석하고, 유해한 언어나 환각성 콘텐츠와 같은 유해 요소를 감지합니다. 이러한 결과는 대시보드의 직관적인 시각화와 실시간 알림을 통해 관련 이해관계자에게 전달되어 잠재적인 위기를 완화할 수 있는 신속한 대응을 가능하게 합니다. 또한 이 기능은 머신 러닝 프레임워크에 원활하게 통합되어 개발자에게 시스템 이상 징후와 그 근본 원인에 대한 즉각적인 인사이트를 제공합니다.

/images/exclusive-databricks-launches-new-tools-for-building-high-quality-rag-apps-1.png

데이터브릭스 레이크하우스 모니터링

이미 도입 진행 중

와일리는 여러 조직이 데이터브릭스 데이터 인텔리전스 플랫폼과 함께 새로 도입한 도구를 활용하고 있으며, 여기에는 레저용 차량 제공업체인 리퍼트와 다양한 산업 분야의 유명 기업인 EQT Corporation과 같은 저명한 기업이 포함된다고 밝혔습니다.

Lippert의 경우 대규모 콜센터를 관리하면서 이직률을 최소화하는 동시에 신규 상담원을 온보딩하는 데 상당한 어려움을 겪고 있습니다. 다행히 데이터브릭스는 제품 설명서, YouTube 튜토리얼, 사례 연구 등의 관련 정보를 고급 검색 시스템에 통합하여 효과적인 솔루션을 제공합니다. 리퍼트의 데이터 및 AI 이니셔티브 책임자인 크리스 니쉬닉은 이 획기적인 방법론이 운영 효율성을 높일 뿐만 아니라 고객 서비스 접점의 품질도 크게 향상시켰다고 말합니다.

조직의 내부 팀에서 유사한 소프트웨어 도구를 활용하여 RAG 애플리케이션을 개발했습니다.

데이터브릭스 정보 기술 팀은 현재 계정 담당자가 관련 정보를 찾는 데 도움을 주기 위해 고안된 RAG 슬랙봇이라는 챗봇을 구현하고, 영업 개발 담당자와 비즈니스 개발 담당자가 잠재 고객과의 커뮤니케이션을 용이하게 하기 위해 사용할 웹 브라우저 확장 프로그램을 개발하는 등 생성적 인공 지능 활용과 관련된 여러 내부 이니셔티브에 참여하고 있습니다.

데이터브릭스는 전문화된 LLM 앱의 인기가 높아짐에 따라 고객 데이터를 기반으로 한 최고 수준의 대규모 언어 모델 애플리케이션을 프로덕션 환경에 쉽게 배포할 수 있도록 설계된 다양한 RAG 도구에 상당한 투자를 계획하고 있습니다. 이미 이러한 기능을 발전시키기 위해 상당한 리소스를 투입하고 있으며, 제품 책임자의 의견에 따라 가까운 시일 내에 추가적인 획기적인 기능을 공개할 계획입니다.