Contents

허깅 페이스 연구진이 Idefics2를 소개합니다: 고급 OCR 및 네이티브 해상도 기술을 통해 멀티모달 AI를 향상시키는 강력한 8B 비전-언어 모델

디지털 성관계의 복잡성이 증가함에 따라 이러한 이질적인 정보를 이해하고 면밀히 조사하기 위해서는 정교한 분석 도구의 사용이 필요합니다. 가장 큰 어려움은 주로 시각적 이미지와 서면 언어 등 다양한 종류의 데이터를 통합하여 다중 모드 입력 신호를 신속하게 해독하고 이에 대응할 수 있는 모델을 구축하는 데 있습니다. 이러한 능력은 자료의 자율적 생성 및 증강 대화형 플랫폼을 비롯한 다양한 유틸리티에 필수적입니다.

기존 연구에는 포괄적인 멀티모달 기능으로 유명한 LLaVa-NeXT 및 MM1과 같은 다양한 모델이 포함되어 있습니다. 특히 LLaVa-NeXT 34B 모델과 MM1-Chat 에디션은 시각적 질문 답변과 이미지-텍스트 상호 작용에서 주목할 만한 표준을 확립했습니다. Gemini 1.0 Pro와 같은 모델은 복잡한 인공 지능 프로세스의 영역을 더욱 발전시켰습니다. 한편, 딥서치-VL은 시각적 질문에 대한 답변에 중점을 두는 반면, 클로드 3 하이쿠는 시각적 자극에서 파생된 내러티브 콘텐츠를 만드는 데 탁월한 역량을 보여줌으로써 현대 인공지능 시스템이 시각 정보와 텍스트 정보를 원활하게 통합할 수 있는 다양한 방법을 보여줍니다.

/images/hugging-face-researchers-introduce-idefics2-a-powerful-8b-vision-language-model-elevating-multimodal-ai-through-advanced-ocr-and-native-resolution-techniques.png

포옹하는 얼굴 연구원들은 단일 프레임워크 내에서 텍스트와 이미지 처리의 통합을 강화하도록 설계된 강력한 8B 파라미터 시각 언어 모델 Idefics2 를 도입했습니다. 이 방법은 이미지 크기를 고정된 크기로 조정해야 하는 경우가 많아 시각 데이터의 디테일과 품질이 손상될 가능성이 있었던 이전 모델과 대조적입니다. NaViT 전략에서 파생된 이 기능을 통해 Idefics2는 시각 정보를 보다 정확하고 효율적으로 처리할 수 있습니다. 학습된 퍼시버 풀링과 MLP 양식 투영을 통해 시각적 기능을 언어 백본에 통합함으로써 이 모델을 더욱 차별화하여 멀티모달 입력에 대한 더 깊고 미묘한 이해를 촉진합니다.

이 모델은 혼합된 인터넷 콘텐츠, 공용 멀티모달 데이터베이스 및 LAION-COCO에서 추출한 이미지 캡션, PDFA, IDL 및 렌더링 텍스트에서 얻은 특수 광학 문자 인식(OCR) 정보 등 다양한 오픈 소스 자료를 활용하여 학습되었습니다.그 후, 50개의 시각 및 언어 데이터 세트를 복잡하게 조합한 “가마솥"으로 알려진 “더 컬드런"을 사용하여 더욱 정교하게 다듬었습니다. 이 마지막 개발 단계에서는 최첨단 적응형 학습 기법을 구현했으며, 특히 모달리티 커넥터의 새로운 매개변수를 위한 맞춤형 미세 조정 방법론을 통해 기본 기본 모델부터 고도의 대화형 Idefics2

Idefics2 버전:

Idefics2-8B-Base까지 각 변종에 고유 기능을 부여했습니다:

현재 반복은 80억 개에 달하는 광범위한 매개변수 수를 특징으로 하는 Idefics2 시리즈의 초석을 구성합니다. 광범위한 멀티모달 작업을 포괄하는 설계로 다양한 도메인에 적용할 수 있습니다. 이 기본 모델은 배포 전에 웹 콘텐츠, 이미지-텍스트 연관성, 광학 문자 인식 출력을 통합하는 이기종 데이터 세트에 대한 훈련을 거쳐 다양한 시각 언어 작업을 수행할 때 뛰어난 복원력을 갖춥니다.

Idefics2-8B:

Idefics2-8B는 50개의 엄선된 멀티모달 및 텍스트 기반 훈련 세트가 포함된 꼼꼼하게 조립된 데이터 세트인 ‘The Cauldron’을 활용하여 개선함으로써 원래 모델보다 발전된 모습을 보여줍니다. 이러한 수정을 통해 이 모델은 복잡한 지시를 충족하는 작업을 처리하는 데 있어 향상된 숙련도를 보여줌으로써 다양한 양식을 보다 효율적으로 이해하고 처리하는 능력을 향상시켰습니다.

Idefics2-8B-Chatty(출시 예정):

Idefics2-8B-Chatty는 장시간 대화를 촉진하고 더 높은 수준의 문맥 이해도를 달성하는 데 중점을 두어 기존 모델에 비해 크게 발전한 모델입니다. 또한 이 모델은 대화 기반 작업을 위해 특별히 개선되었기 때문에 고객 서비스 챗봇이나 내러티브 시스템 등 장시간의 대화가 필요한 상황에 특히 적합합니다.

Idefics1 대비 개선 사항:

Idefics2는 기본 해상도에서 이미지를 처리하는 NaViT 전략을 활용하여 시각적 데이터 무결성을 향상시킵니다. 특수 데이터 통합을 통한 향상된 OCR 기능으로 텍스트 전사 정확도가 향상됩니다. 비전 인코더와 인식기 풀링을 사용하는 간소화된 아키텍처로 Idefics1보다 성능이 크게 향상되었습니다. /images/hugging-face-researchers-introduce-idefics2-a-powerful-8b-vision-language-model-elevating-multimodal-ai-through-advanced-ocr-and-native-resolution-techniques-1.png

Idefics2는 다양한 벤치마크 테스트에서 놀라운 성능을 보였습니다.특히 시각적 질문 답변(VQA)에서 뛰어난 성과를 거두어 이전 모델인 Idefics1보다 훨씬 높은 81.2%라는 놀라운 정확도를 기록했습니다. 또한 이 모델은 이전 모델과 비교했을 때 문자 인식 작업에서 20%의 괄목할 만한 향상을 보이며 문자 인식 능력에서 상당한 발전을 보였습니다. 이러한 발전은 특히 오류율을 5.6%에서 3.2%로 감소시켜 실제 애플리케이션에서 요구되는 최고의 정밀도로 텍스트 데이터를 추출하고 해석하는 신뢰할 수 있는 솔루션으로서 그 효과를 입증했습니다.

요약하면, 이 연구에서는 고해상도 이미지 처리와 강력한 OCR 기능을 완벽하게 결합한 혁신적인 비전 언어 모델인 Idefics2를 소개했습니다. 이 모델은 시각적 질문 답변과 텍스트 추출 작업 모두에서 탁월한 성능을 제공함으로써 멀티모달 인공 지능 분야에서 괄목할 만한 진전을 보여주었습니다. 중요한 점은 Idefics2가 시각 정보의 충실도를 유지하면서 텍스트 인식 정확도를 크게 향상시켰다는 점입니다. 이 획기적인 발전은 주목할 만한 진전으로, 복잡한 멀티모달 분석이 필요한 다양한 영역에서 보다 정확하고 간소화된 AI 애플리케이션을 위한 길을 열어줍니다.

HF 프로젝트 페이지 블로그를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들을 위해 저희 뉴스레터를 구독해 주시기 바랍니다. 뉴스레터는 여러분에게 큰 관심을 가질 만한 최신 노력과 업데이트에 대한 정보를 얻을 수 있는 훌륭한 플랫폼이므로 구독해 주시기 바랍니다.

4만 명이 넘는 회원을 자랑하는 Reddit의 방대한 머신러닝 애호가 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

콘텐츠 파트너십을 원하시면 이 양식을 작성해 주세요….

구글, 엔비디아, 메타, 스탠포드, MIT, 마이크로소프트 등 저명한 기관의 주요 학자들 사이에서 큰 인기를 얻고 있는 권위 있는 AI 연구 뉴스레터를 즐겨보세요.