ChatGPT를 대체할 새로운 오픈소스 AI 비전 모델이 등장했지만 문제가 있습니다.
LLM 영역에서 오픈소스 작업을 게시하는 것으로 유명한 민간 응용 연구 그룹인 Nous Research 에서 경량 비전 언어 모델인 Nous Hermes 2 Vision을 발표했습니다.
허깅 페이스에서 제공하는 오픈 소스 모델에는 이미지 처리 기능이 통합되어 있어 사용자가 시각적 단서를 기반으로 반응을 생성할 수 있습니다. 이 고급 기능은 이미 인상적인 언어 이해 능력을 보여준 이전 버전의 OpenHermes-2.5-Mistral-7B 모델의 토대 위에 구축되었습니다.
초기의 기대에 부응하는 데뷔에도 불구하고, 처녀 항해 중에 공개된 최첨단 AI 모델은 예상을 뛰어넘는 빠른 성능 저하로 인해 몇 가지 기술적 사고가 발생하여 브랜드 변경이 필요하게 되었습니다. 그 결과, 이 노력의 이름을 “헤르메스 2 비전 알파"로 변경했습니다. 그럼에도 불구하고 이전 버전과 차별화되는 핵심 장점을 유지하면서 더 높은 안정성을 자랑하는 후속 버전을 제공하겠다는 의지는 확고합니다.
누스 에르메스 2 비전 알파
신들의 메신저 역할을 했던 그리스 신 에르메스에서 영감을 받은 누스 비전 모델은 “미로 같은 인간 커뮤니케이션의 미묘함을 숭고한 우아함으로” 매끄럽게 가로지르는 혁신적인 접근 방식을 구현하고자 합니다. 사용자가 제공하는 시각적 입력을 활용하여 이러한 정보를 자체적인 전문성과 능숙하게 융합하여 일상적인 음성 패턴의 범위 내에서 포괄적인 응답을 제공합니다.
예를 들어, 사용자의 이미지를 분석하여 그 이미지에 포함된 다양한 측면을 자세히 설명할 수 있습니다. X 이라는 아이디를 사용하는 Nous의 공동 창업자는 LLM이 햄버거 사진을 분석하여 햄버거가 건강에 해로운지, 왜 해로운지 알아낼 수 있었던 테스트 스크린샷을 공유했습니다.

누스 에르메스 2 비전 작업 중
GPT-4V에 기반한 오픈소스 대안 ChatGPT를 대체하는 누스의 독특한 기능에는 시각 정보를 기반으로 응답을 제공하는 기능과 경쟁사와 차별화되는 추가적인 개선 사항이 포함되어 있습니다.
누스 에르메스 2 비전은 광범위한 3B 비전 인코더를 필요로 하는 번거롭고 무거운 기존 방식에 의존하는 대신 SigLIP-400M을 활용하여 컴퓨터 비전에 대한 새로운 접근 방식을 채택합니다. 그 결과 아키텍처는 더 간결하고 빠르면서도 비전 언어 작업에서 탁월한 결과를 제공합니다.
또한 이 모델은 함수 호출 예제가 포함된 특수 데이터 세트를 사용하여 미세 조정되었습니다.그 결과, 사용자는 이제
이 회사는 누스-헤르메스-2-비전을 혁신적인 비전-언어 액션 모델로 선전하며, 비전 기능과 자연어 처리 기능을 통합하여 다양한 오토메이션을 만들 수 있는 다양성과 적응성을 자랑합니다. 이 메시지는 허깅 페이스 플랫폼에서 전달되며, 개발자가 이 유용한 도구를 활용하여 수많은 창의적인 솔루션을 만들 수 있는 잠재력을 강조합니다.
모델 학습에 활용된 기타 데이터 세트는 LVIS-INSTRUCT4V, ShareGPT4V 및 OpenHermes-2.5에서 파생된 대화 데이터로 구성됩니다.
차별화에도 불구하고 현 단계에서는 여전히 문제가 남아 있음
연구 개발 목적으로 접근 가능함에도 불구하고 Nous 비전 언어 모델의 초기 테스트에서 불완전성이 드러났습니다.
제품 출시 후 창립자 중 한 명이 과도한 환각과 토큰 스팸 사례 등 모델의 성능 문제를 인정하는 성명을 게시했습니다. 이후 해당 모델의 이름은 ‘알파’ 릴리스라는 상태를 반영하여 변경되었습니다.
“사람들이 ‘환각’에 대해 이야기하는 것을 봤는데, 네, 상당히 안 좋은 일입니다. 기반이 되는 LLM이 무수정 모델이기 때문에 저도 알고 있었습니다. 이러한 문제를 해결하기 위해 이달 말까지 업데이트 버전을 만들 예정입니다.” Nous의 AI 노력을 이끌고 있는 연구원 Quan Nguyen, X에 작성
안타깝게도 현재까지 이 플랫폼에서 다양한 우려와 관련하여 제기된 질문에 대한 답변이 제공되지 않았습니다.
응우옌은 후속 포스팅에서 함수를 호출하는 기능은 사용자가 잘 정의된 스키마를 구현할 때 여전히 유효하다는 점을 인정했습니다. 또한, 사용자 피드백의 반응이 좋을 경우 함수 호출을 위한 맞춤형 모델을 도입할 의향이 있음을 밝혔습니다.
현재까지 누스 리서치는 다양한 아키텍처 설계와 기능을 아우르는 총 41개의 오픈소스 모델을 헤르메스, 야른, 카피바라, 퍼핀, 옵시디언 컬렉션으로 제공하고 있습니다.