Contents

스탠포드 및 데이터브릭스 연구진의 오픈소스 BioMedLM: PubMed 텍스트로 학습된 27억 개의 파라미터 GPT 스타일 AI 모델

Contents

대규모 언어 모델(LLM), 특히 GPT-4와 같은 OpenAI와 같은 조직에서 개발한 언어 모델의 등장은 자연어 처리(NLP) 영역에 통합되어 인공 지능의 환경에 큰 영향을 미쳤습니다. LLM은 방대한 양의 데이터를 활용하여 일관된 언어를 생성하고 주어진 텍스트 문맥에서 후속 단어를 예측하기 위해 광범위한 학습을 거칩니다. 또한 이러한 모델은 사용자 입력에 따라 출력을 개선할 수 있으므로 반복할 때마다 성능이 향상됩니다. 특히 요약 생성 및 질문에 대한 답변 분야에서 다양한 NLP 작업에서 LLM이 보여준 인상적인 능력은 생의학 및 의료 관리 영역으로 그 활용도를 확장했습니다.

Med-PaLM 2는 방사선 보고서 해석, 전자 건강 기록의 임상 데이터 분석, 생의학 문헌에서 관련 정보 추출 등의 작업을 수행하는 능력을 통해 의료 및 생의학 연구를 비롯한 다양한 영역에 큰 영향을 끼친 고도로 전문화된 모델입니다. 이러한 도메인별 언어 모델을 개선하면 잠재적으로 의료 비용을 절감하고 과학적 혁신을 촉진하며 환자 복지를 개선할 수 있습니다.

대규모 언어 모델(LLM)은 놀라운 숙련도를 보이고 있음에도 불구하고 광범위한 채택을 방해하는 다양한 문제에 계속 직면하고 있습니다. 특히 시간이 지남에 따라 이러한 시스템을 교육하고 배포하는 데 드는 비용이 크게 증가하여 경제적인 측면과 환경적인 측면을 모두 고려해야 하는 문제가 발생하고 있습니다. 또한, 이러한 모델의 독점적 영역이 저명한 디지털 주체의 통제 하에 있다는 점은 접근성 및 데이터 기밀성에 대한 우려를 불러일으켰습니다.

생물의학 영역에서는 이러한 모델의 고유한 설계로 인해 개별 요구사항에 맞게 대응을 세분화할 수 있는 가능성을 배제하고 있습니다. 도메인 맞춤형 답변을 제공하지만 GPT-4와 같은 보다 포괄적인 모델에 비해서는 미흡합니다.

앞서 언급한 문제를 해결하기 위해 스탠포드 대학교와 DataBricks의 연구진은 27억 개의 파라미터를 자랑하면서 GPT의 특성을 보여주는 자동 회귀 모델인 BioMedLM을 개발하여 배포했습니다. 이 혁신적인 접근 방식의 성능은 여러 벤치마크에서 기존 영어 모델을 능가하며, 나아가 생의학 질문 답변 영역에서 인상적인 결과를 보여주었습니다.

BioMedLM은 PubMed 초록과 전체 길이의 논문에서 독점적으로 제공된 학습 데이터를 활용하여 생의학 자연어 처리(NLP) 작업의 요구 사항을 충족하도록 특별히 맞춤화된 세심하게 큐레이션된 코퍼스를 활용합니다. 이 접근 방식은 보다 광범위한 모델에 비해 상대적으로 작은 크기에도 불구하고 특정 생물의학 애플리케이션에 맞게 미세 조정하면 주목할 만한 성능을 발휘합니다.

BioMedLM은 객관식 생물의학 질문 답변 작업을 처리하는 데 탁월한 능력을 보여 주었으며, 보다 광범위한 모델에 필적하는 결과를 산출해 냈습니다. 생물학적 소스에서 관련 데이터를 식별하는 이 모델의 능력은 MMLU 의학 유전학 시험에서 69.0%, MedMCQA 개발 세트에서 57.3%라는 인상적인 점수로 더욱 입증되었습니다.

생의학 언어 처리에 활용되는 소형 모델인 BioMedLM은 내재된 정제 능력을 갖추고 있어 건강 문제에 대한 지각적인 반응을 생성할 수 있습니다. 이러한 다재다능함은 특히 의학 분야와 같은 도메인별 자연어 처리 작업을 위한 안정적이고 명확하며 데이터 보호를 고려한 도구로서 BioMedLM과 같은 소형 AI 시스템의 잠재력을 강조합니다.

BioMedLM은 훈련 및 배포 과정에서 최소한의 컴퓨팅 리소스만 필요로 하는 보다 간소화된 솔루션으로서 유리한 대안을 제시합니다. 이 접근 방식은 생태 발자국을 최소화하면서 가용 리소스를 효율적으로 활용할 수 있습니다. 또한 선별된 데이터 세트를 사용하면 투명성과 신뢰성이 향상되어 불투명한 교육 데이터 소스에 대한 우려를 없앨 수 있습니다.

논문 모델 를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시면 더욱 관심을 불러일으킬 수 있는 최신 노력과 개발에 대한 정보를 얻을 수 있는 훌륭한 플랫폼이 될 수 있도록 진심으로 초대합니다.

현재 39,000명 이상의 회원을 보유한 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 및 이 분야의 수많은 선도 기관의 저명한 전문가들이 구독하는 빠르게 확장되고 있는 AI 연구 뉴스레터를 구독하세요.