LLM이 과학에 미치는 영향: 급증하는 논문, 정체되는 품질

최근 과학 논문들이 AI가 생성한 부적절한 내용으로 인해 철회되는 고위험 사례들이 여러 건 발생했으며, 가장 최근 사례는 단 2주 전에 발생했습니다. 이러한 사례들은 일부 학술지들의 동료 검토(peer review) 품질에 대해 심각한 의문을 제기합니다. “runctitional”, “fexcectorn”, 그리고 “frymblal”과 같은 용어가 포함된 그림이 어떻게 동료 검토 과정을 통과할 수 있었는지 이해하기 어렵습니다. 특히 “frymblal”의 ‘m’이 추가적인 융을 가지고 있다는 점을 고려하면 더욱 그렇습니다. 하지만 이러한 고위험 사례들이 대표성을 띄는지 명확하지 않았습니다. AI 사용은 과학 문헌에 얼마나 큰 영향을 미치고 있을까요?
버클리(Berkeley)와 코넬(Cornell)의 연구자들은 이에 대한 조사를 결정했습니다. 그들은 가장 큰 사전 공개 논문 기록 3곳을 검색하여 대규모 언어 모델(Large Language Models, LLM)을 사용하여 생성되었을 가능성이 높은 논문을 식별했습니다. 그리고 그들은 연구자들이 AI를 사용하기 시작한 이후 더 많은 논문을 발표하는 경향이 있으며, 사용된 언어의 품질이 향상되었지만 이러한 논문의 발표율은 감소했다는 사실을 발견했습니다.
기록 검색
연구자들은 2018년부터 2024년 중반까지 세 곳의 주요 사전 공개 기록에 게시된 모든 논문의 초록을 확보하는 것으로 시작했습니다. arXiv에서는 120만 건의 문서를 확보했으며, 사회과학 연구 네트워크(Social Science Research Network)에서는 67만 5천 건, 그리고 bioRxiv에서는 22만 건을 확보했습니다. 따라서 작업할 자료의 양이 매우 많았으며 다양한 연구 분야를 포괄했습니다. 또한 대규모 언어 모델이 적절한 품질의 출력을 생성할 수 있었을 가능성이 낮았던 기간에 제출된 문서도 포함되었습니다.
연구자들은 ChatGPT 이전 기간의 초록을 사용하여 인간이 생성한 텍스트의 통계적 특징을 인식하는 모델을 훈련했습니다. 동일한 초록은 GPT 3.5에 입력되어 다시 작성되었고, 동일한 프로세스가 반복되었습니다. 그런 다음 이 모델을 사용하여 주어진 초록이 AI 또는 실제 인간에 의해 생성되었을 가능성을 추정할 수 있었습니다.
연구팀은 이를 사용하여 주요 전환점을 식별했습니다. 즉, 이 기록 중 하나에 있는 특정 저자가 제출물 생산에 LLM을 사용하기 시작한 시점을 말합니다. 그런 다음 그들은 AI에 전환한 후 연구자들의 이전 생산성과 비교했습니다. 그들은 “LLM 채택은 세 개의 사전 공개 저장소 모두에서 연구자들의 과학적 생산량의 큰 증가와 관련이 있다”고 결론지었습니다.