허깅 페이스, 건강 작업에서 생성 AI를 테스트하기 위한 벤치마크 공개
최근 의료 환경 내에서 생성형 인공지능 모델을 활용하는 추세가 증가하고 있습니다. 그러나 이러한 구현이 때때로 시기상조일 수도 있다는 점에 주목할 필요가 있습니다. 이러한 기술을 옹호하는 사람들은 이러한 기술이 생산성을 높이고 감춰져 있던 독특한 관점을 제공할 것이라고 주장합니다. 반면에 반대하는 사람들은 이러한 모델에는 불완전성과 내재된 편견이 있어 잠재적으로 건강에 부정적인 결과를 초래할 수 있다고 주장합니다.
병력 요약 및 의료 문제 해결과 같은 작업에서 AI 시스템의 잠재적 유용성 또는 해로움을 평가하는 데 수치적 방법을 활용할 수 있나요?
AI 스타트업인 Hugging Face는 라는 새로 발표된 Open Medical-LLM 이라는 벤치마크 테스트에서 해결책을 제안합니다. 비영리 단체인 Open Life Science AI와 에든버러 대학교 자연어 처리 그룹의 연구원들이 협력하여 만든 Open Medical-LLM은 다양한 의료 관련 작업에서 생성 AI 모델의 성능을 평가하는 것을 표준화하는 것을 목표로 합니다.
신규: 오픈 메디컬 LLM 리더보드!
기본 챗봇에서 오류는 성가신 일입니다.
의료용 LLM에서 오류는 생명을 위협하는 결과를 초래할 수 있습니다 🩸의료 언어 모델(LLM)은 의료 기술을 형성하는 데 중요한 역할을 하므로 구현을 고려하기 전에 개발 동향을 파악하는 것이 중요합니다.
- 클레멘타인 포리에 🍊 (@clefourrier) 2024년 4월 18일
Open Medical-LLM은 그 자체로 완전히 새로운 벤치마크가 아니라 해부학, 약리학, 유전학 및 임상 실습과 같은 일반 의학 지식 및 관련 분야에 대한 모델의 기능을 평가하도록 설계된 기존 테스트 스위트의 모음집에 불과합니다. 이 벤치마크는 미국 및 인도 의사 면허 시험과 대학 수준의 생물학 시험 은행 자료에서 파생된 의학적 이해와 분석 능력을 필요로 하는 객관식 및 주관식 문항을 모두 통합하고 있으며, 의학적 이해와 분석 능력을 필요로 하는 객관식 및 주관식 문항을 모두 포함하고 있습니다.
Hugging Face의 블로그 게시물은 연구자와 의료 전문가가 다양한 방법론의 장단점을 파악할 수 있게 함으로써 Open Medical-LLM이 비판적 분석을 용이하게 하는 방법을 강조합니다. 이러한 통찰력 있는 평가 프로세스는 의료계의 지속적인 발전을 촉진하고 궁극적으로 환자의 웰빙과 치료 결과를 개선하는 데 기여합니다.
이미지 크레딧: 허깅 페이스
허깅 페이스는 의료 애플리케이션에 사용하도록 설계된 인공지능 모델에 대한 ‘광범위한 평가’로 이 벤치마크를 제시했습니다. 그러나 일부 의료 전문가들은 소셜 미디어를 통해 Open Medical-LLM에 지나치게 의존하면 부적절한 배치 결정이 내려질 수 있다는 우려를 표명했습니다.
앨버타 대학교의 신경학 전문 레지던트 의사인 Liam McCoy는 글로브 앤 메일과의 인터뷰에서 의학적 질문에 답하는 연습의 통제된 환경과 실제 임상 시나리오의 예측 불가능한 특성 사이에 종종 존재하는 상당한 불균형에 대해 강조했습니다.
이 분야에서 나란히 비교할 수 있다는 것은 칭찬할 만하지만, 의료 질문 답변의 통제된 조건과 실제 임상 진료에 내재된 복잡성 사이의 엄청난 차이를 간과해서는 안 됩니다. 또한 기존의 지표로는 특정 위험을 완전히 파악할 수 없다는 점을 인식하는 것이 중요합니다.
- 리암 맥코이(@LiamGMcCoy) 2024년 4월 18일
연구 결과에 대한 동의는 Hugging Face의 연구 과학자이자 블로그 게시물의 저자 중 하나인 클레멘타인 포리어가 표명했습니다.
“이러한 리더보드의 활용은 특정 애플리케이션에 적합한 생성 AI 모델을 선택할 때 초기 지표로만 활용되어야 하며, 실제 상황에서 그 기능을 종합적으로 평가하기 위해서는 더욱 엄격한 검토가 필요합니다.“라고 푸리에가 X에 올린 게시물에서 강조한 것처럼 의료 모델은 치료를 원하는 개인에게만 의존해서는 안 되며, 자격 있는 의료 전문가를 위한 신뢰할 수 있는 지원 리소스로 개발되어야 한다는 점을 강조하는 것이 중요합니다.
태국의 의료 분야에 머신러닝 기반 당뇨망막병증 선별 시스템을 도입하고자 했던 구글의 이전 노력이 떠올랐습니다.
Devin이 2020년에 보고한 것처럼, Google은 시력 상실의 주요 원인인 망막병증의 증거를 찾기 위해 눈의 이미지를 스캔하는 딥러닝 시스템을 만들었습니다. 그러나 높은 이론적 정확도에도 불구하고 이 도구는 실제 테스트에서 비실용적인 것으로 판명되어 , 일관성 없는 결과와 현장 실무와의 전반적인 조화 부족으로 환자와 간호사 모두에게 실망감을 안겨주었습니다.
미국 식품의약국이 현재까지 승인한 139개의 AI 관련 의료 기기 중 제너레이티브 AI를 사용하는 의료 기기는 하나도 없습니다 . 실험실에서의 제너레이티브 AI 도구의 성능이 병원과 외래 진료소에서 어떻게 구현되는지, 그리고 더 중요한 것은 시간이 지남에 따라 결과가 어떻게 변할 수 있는지 테스트하는 것은 매우 어렵습니다.
Open Medical-LLM이 귀중한 정보와 인사이트를 제공할 수 있다는 점은 인정해야 하지만, 그 유용성 또한 한계에 비추어 고려해야 합니다. 특히, 결과 순위표는 근본적인 건강 문제를 해결하는 데 있어 모델의 심각한 결함을 강조합니다. 그럼에도 불구하고 평가 목적으로 오픈 메디컬-LLM에만 의존하는 것만으로는 충분하지 않을 수 있습니다. 오히려 최적의 성능을 보장하기 위해서는 철저한 실제 테스트와 신중한 고려가 필요합니다.