Contents

Apple 연구원, 화면 컨텍스트를 '보고' 이해할 수 있는 인공지능 ReALM 발표

Contents

참조 표현식 해상도는 특정 용어나 구문이 참조하는 개체를 정확히 찾아내어 다양한 언어 환경에서 이해를 돕는 자연어 처리(NLP)의 필수적인 측면을 형성합니다. 여기에는 앞선 토론 차례와 같은 대화 교환은 물론 사용자 인터페이스에 표시되는 항목이나 조작과 같은 언어 외적 요소도 포함됩니다.

현재 연구의 주요 목표는 참조를 해독할 때, 특히 비대화 개체와 관련하여 대규모 언어 모델(LLM)의 숙련도를 증폭시키는 근본적인 문제를 해결하는 것입니다. 최근 연구에는 온스크린 자료를 포함한 다중 모드 참조 해상도에 집중하는 MARRS와 같은 모델이 포함됩니다. 또한 비전 트랜스포머와 비전 기반 텍스트 모델의 활용을 통해 발전이 이루어졌지만 이러한 접근 방식은 계산 집약적이기 때문에 아직 널리 구현되지는 않았습니다.

Apple의 연구팀은 파싱된 개체와 그 위치를 기반으로 화면의 시각적 표현을 구성하여 화면의 내용을 정확하게 반영하는 텍스트 기반 묘사를 생성하는 ReALM(참조 해상도 언어 모델링)이라는 새로운 접근 방식을 제안합니다. 이 프로세스를 용이하게 하기 위해 엔티티 태그를 사용하여 언어 모델에 엔티티의 위치와 주변의 텍스트에 대한 정보를 제공합니다(예: “비즈니스 번호로 전화”). 연구진에 따르면 ReALM은 대규모 언어 모델을 활용하여 화면과 해당 텍스트 표현 사이의 맥락을 포착하려는 최초의 시도라고 합니다.

대규모 언어 모델(LLM)을 개선하기 위해 연구진은 FLAN-T5 아키텍처를 사용했습니다. 연구진은 파싱된 입력을 활용하고 표준 미세 조정 설정을 준수하면서 미세 조정을 수행했습니다. 사용자 문의 및 관련 엔티티가 포함된 주어진 데이터 세트에 대해 모델을 훈련시키기 위해 각 데이터 조각이 별도의 문장으로 표현되는 LLM에서 처리하기에 적합한 형식으로 정보를 변환합니다. 모델에 제출하기 전에 엔티티는 무작위화 과정을 거쳐 모델이 특정 엔티티 배치와 관련하여 지나치게 전문화되는 것을 방지합니다.

ReALM의 성능은 다양한 데이터 세트 유형에서 MARRS 모델을 능가합니다. 또한, 광범위한 매개변수 우위를 자랑하며 GPT-3.5보다 우월함을 보여줍니다. GPT-4에 비해 훨씬 적은 수의 파라미터를 가지고 있음에도 불구하고 ReALM은 후자와 비슷한 결과를 달성합니다. 화면 기반 데이터 세트에 대한 실험 결과, 텍스트 인코딩 방법론의 활용으로 인해 괄목할 만한 개선이 이루어졌습니다.이 기법이 적용된 ReALM 모델은 스크린샷을 통한 시각적 정보로 보완되었음에도 불구하고 GPT-4와 경쟁할 수 있습니다.

/images/apple-researchers-present-realm-an-ai-that-can-see-and-understand-screen-context.png

요약하면, 이 연구는 개체 후보의 자연어 인코딩을 통해 참조를 해결하기 위해 대규모 언어 모델(LLM)을 활용하는 새로운 접근 방식인 ReALM을 제시합니다. 저자들은 화면에 표시되는 엔티티를 간결한 텍스트 표현을 통해 문맥 내에서 상대적인 공간적 위치를 유지하면서 LLM에 원활하게 공급하는 방법을 성공적으로 보여주었습니다. 특히 ReaLM은 더 적은 수의 모델 매개변수에도 불구하고 GPT-4를 비롯한 기존 방식에 비해 우수한 성능을 보였으며, 화면상의 참조와 사용자가 생성한 텍스트 참조 모두에서 비슷한 결과를 달성했습니다. 이러한 결과를 통해 ReaLM은 특히 특정 도메인이나 사용자 입력을 처리할 때 실질적인 참조 확인 작업에 매우 효과적인 솔루션으로 자리매김했습니다.

백서를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

뉴스레터는 웹사이트나 소셜 미디어 플랫폼을 통해 전달할 수 있는 것보다 더 포괄적인 방식으로 최신 노력에 대한 귀중한 인사이트와 업데이트를 제공하는 훌륭한 플랫폼이므로, 저희의 노력에 감사하는 분들의 구독을 진심으로 초대합니다.

현재 39,000명 이상의 회원을 보유한 Reddit의 방대한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

Google, NVIDIA, Meta, 스탠포드 대학, 매사추세츠 공과대학, Microsoft 등 이 분야의 권위 있는 기관의 최고 전문가들이 열심히 읽고 있는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.