하버드 연구진이 전략적 텍스트 시퀀스가 AI 기반 검색 결과를 조작하는 방법 공개
검색 엔진 인터페이스를 통해 입력된 사용자 쿼리에 대해 사람과 유사한 답변을 제공하기 위해 Google 검색 및 Microsoft Bing에서 활용하는 것과 같은 대규모 언어 모델이 점점 더 많이 사용되고 있습니다. 기존의 검색 엔진은 관련 웹페이지를 식별하는 데는 탁월하지만, 이러한 소스에서 파생된 일관된 답변을 종합하여 제공하는 데는 한계가 있습니다. 그러나 LLM의 기능을 활용함으로써 이러한 시스템은 이제 검색 결과를 사용자가 제기한 우려 사항을 구체적으로 충족하는 명료한 답변으로 컴파일할 수 있습니다. 그 결과, 구글 검색과 마이크로소프트 빙은 기존의 텍스트 입력 검색창에 더해 상호 작용의 대체 또는 보완 수단으로 LLM 기반 채팅 인터페이스를 도입하기 시작했습니다.
기존의 대규모 언어 모델은 지식창고를 업데이트하고 정확한 텍스트를 생성할 때 몇 가지 문제에 직면합니다. 한 가지 한계는 초기 학습 과정에서 얻은 정보의 양이 제한되어 있어 새로운 데이터를 통합하기 어렵다는 점입니다. 또한 이러한 모델은 기존 지식을 기반으로 텍스트를 작성하는 동안 잘못된 콘텐츠를 생성할 수 있습니다. 데이터베이스나 검색 엔진과 같은 외부 지식 소스를 LLM과 결합하는 검색 증강 생성(RAG)을 사용하면 텍스트 생성 프로세스를 추가 컨텍스트로 보완할 수 있습니다. 또한 대규모 언어 모델(LLM)은 악의적인 공격자가 보안 조치를 우회하고 해로운 반응을 유도하기 위해 신중하게 설계된 입력을 제출하여 시스템의 취약점을 악용하는 적대적인 공격에 취약합니다.
하버드 연구진은 이커머스 영역에서 LLM 기반 검색 결과를 전략적으로 조작하기 위해 전략적 텍스트 시퀀스(STS)라는 새로운 접근 방식을 개발했습니다. STS는 제품 설명에 최적의 토큰 시퀀스를 통합함으로써 사용자가 알고리즘이 제안하는 항목의 눈에 띄는 위치를 높일 수 있도록 합니다. 이 연구에서는 에스프레소 제조업체의 시뮬레이션 구색을 활용했습니다. 이 방법론을 사용하여 일반적으로 LLM이 추천하는 제품과 일반적으로 두 번째로 추천하는 제품 두 가지에 대한 영향을 조사했습니다. 그 결과, STS가 두 제품의 노출을 효과적으로 높여 궁극적으로 최상위 추천 상품으로 부각될 가능성을 높인 것으로 나타났습니다.
서프라이즈 테스트 세트(STS)를 적용하여 대규모 언어 모델(LLM)을 조작하여 특정 항목이 추천 목록의 최상위에 표시될 가능성을 높일 수 있는 잠재력을 입증했습니다. 제품 프로필 내에 STS 데이터를 전략적으로 삽입함으로써 의도한 대상에 유리하도록 LLM의 제안에 영향을 미치는 맞춤형 방법론이 고안되었습니다.이러한 접근 방식의 힘을 강화하기 위해 저희는 적대적 공격 알고리즘, 특히 탐욕스러운 좌표 그래디언트(GCG)를 프레임워크에 통합했습니다. 이러한 기술은 STS의 강점을 강화하는 데 기여하여 궁극적으로 상업 기업과 온라인 마켓플레이스 모두에서 제품의 인지도를 높이는 데 기여합니다. 또한 이 프레임워크는
유전적 계산 그라데이션(GCG) 접근법은 특정 의미론적 텍스트 유사도(STS)를 최적화하여 2000번의 반복적인 계산을 통해 ColdBrew Master라는 커피 브랜드의 성능을 향상시킵니다. 초기 단계에서는 이 제품이 추천 기준을 충족하지 못했지만, 100회 이후에는 주요 선택지 중 하나로 부상했습니다. 또한, 시퀀스의 존재 여부와 관계없이 200개의 대규모 언어 모델(LLM) 추론 사례에서 시퀀스의 영향력을 기준으로 STS의 영향력을 조사했습니다. STS는 긍정적인 결과와 부정적인 결과의 확률을 균형 있게 제시하지만, STS 미세 조정 단계에서 제품 포지셔닝을 재배치하면 혜택은 크게 증가하고 추첨은 감소할 수 있습니다
요약하면, 연구자들은 이커머스 영역에서 LLM 기반 검색 엔진에 영향을 미칠 수 있는 세심하게 설계된 메시지인 STS를 제시했습니다. STS는 제품 정보 페이지에 최적의 단어 배열을 통합함으로써 LLM이 생성한 추천 항목 목록에서 해당 제품의 위치를 향상시킬 수 있습니다. 또한 제품 세부 정보에 STS를 통합하고 STS를 미세 조정하기 위해 GCG 알고리즘을 사용하여 포괄적인 구조를 만들어 소매 및 온라인 마켓플레이스와 같은 다양한 상업 부문에서 제품의 눈에 잘 띄도록 강화할 수 있습니다. 이 연구는 이커머스에서의 즉각적인 적용을 넘어 AI 기반 검색 엔진 최적화와 관련된 광범위한 파급 효과를 탐구하고 이러한 관행을 둘러싼 중요한 도덕적 고려 사항을 제기합니다.
논문 및 Github 를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
최근의 성과와 향후 계획에 대한 포괄적인 개요를 간결하고 유익한 방식으로 제공하는 훌륭한 플랫폼인 뉴스레터를 구독해 주시면 감사하겠습니다.
4만 명이 넘는 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
인공지능 플랫폼을 통해 약 150만 명의 잠재고객에게 도달하기 위해 당사와 협업하는 방법에 대해 문의합니다.
상품 추천 및 검색에 #LLM 에 대한 의존도가 높아지는 가운데, 기업이 이러한 모델을 활용하여 상품 가시성을 높일 수 있을까요?
저희의 최신 연구는 이 질문에 대한 해답을 제공하며, LLM을 조작하여 제품 가시성을 높일 수 있음을 보여줍니다!… pic.twitter.com/gwsGiuUdRR
- 𝙷𝚒𝚖𝚊 𝙻𝚊𝚔𝚔𝚊𝚛𝚊𝚓𝚞 (@hima_lakkaraju) 4월 12일, 2024
구글, 엔비디아, 메타, 스탠포드, MIT, 마이크로소프트 등 저명한 기관의 전문가들이 열독하는 가속화된 AI 연구 뉴스레터에 빠져보세요.