“대장내시경 AI 학습 혁신”… 서울대학교병원, 9% 판독으로 16만 프레임 구축

능동학습 기반 ‘AD-BALD’·데이터셋 ‘InfoColon’ 공개... 정보·비정보성 프레임 분류 효율↑
전체 데이터의 9%만 직접 라벨링...알고리즘 분류 정확도 0.975 달성

좌부터 서울대병원 영상의학과 이동헌 교수, 서울대병원 강남센터 소화기내과 진은효 교수

대장내시경 인공지능(AI) 연구의 효율성을 획기적으로 높일 수 있는 기술이 국내 연구진에 의해 개발됐다. 서울대학교병원 연구팀이 진단 가치가 높은 영상만을 선별하는 알고리즘을 통해 방대한 데이터셋을 구축하며, 향후 AI 기반 내시경 진단의 시간과 비용을 크게 줄일 수 있는 기반을 마련했다.

대장내시경은 대장암 예방과 조기 발견을 위한 핵심 검사지만, 검사 과정에서 발생하는 흐림, 거품, 조명 불량 등으로 인해 영상 품질이 저하되는 문제가 꾸준히 제기돼 왔다. 이러한 ‘비정보성 프레임’은 AI 모델 학습의 효율을 떨어뜨리고, 실시간 진단 보조 시스템의 정확도를 저해하는 주요 요인으로 꼽힌다.

이에 이동헌 교수와 진은효 교수 연구팀은 능동학습 기반 알고리즘 ‘AD-BALD’를 개발하고, 이를 활용해 16만 프레임 규모의 대장내시경 데이터셋 ‘InfoColon’을 구축했다고 23일 밝혔다.

이번 연구의 핵심은 최소한의 데이터 라벨링으로 최대의 학습 효율을 끌어낸 점이다. 연구팀이 개발한 ‘AD-BALD’ 알고리즘은 인공지능이 스스로 판단하기 어려운 영상을 선별해 전문가의 검증을 요청하는 방식으로 작동한다. 이를 통해 전체 데이터 중 약 9%(1만2663프레임)만 직접 판독하고도, 고품질의 대규모 데이터셋 구축이 가능했다.

연구팀은 대장내시경 영상을 ‘정보성 프레임’과 장벽, 거품, 흐림, 조명 불량, 도구, 장애물 등 6가지 유형의 ‘비정보성 프레임’으로 구분했다. 이러한 체계적 분류를 기반으로 구축된 ‘InfoColon’ 데이터셋은 AI 학습의 표준 자료로 활용될 가능성을 높였다는 평가다.

알고리즘 성능 역시 주목할 만하다. ‘AD-BALD’는 분류 정확도를 나타내는 AUROC 지표에서 최대 0.975를 기록하며, 제한된 인력과 비용으로도 고품질 의료 데이터를 생성할 수 있음을 입증했다.

연구팀은 나아가 선별된 정보성 프레임을 활용해 대장 내부 구조를 3차원 점구름(3D Point Clouds) 형태로 재구성하는 데도 성공했다. 이는 대장의 주름과 굴곡을 입체적으로 구현한 것으로, 향후 시술 중 병변을 놓치지 않도록 돕는 ‘내시경 내비게이션’ 기술로의 확장 가능성을 제시했다.

이동헌 교수는 “InfoColon은 비정보성 프레임 문제 해결을 위한 표준화된 학습 지침서 역할을 할 것”이라며 “AD-BALD와 함께 활용하면 방대한 내시경 영상을 효율적으로 가공할 수 있어 차세대 내시경 AI 연구에 실질적인 도움이 될 것”이라고 강조했다.

한편 연구팀은 ‘InfoColon’ 데이터셋과 ‘AD-BALD’ 구현 코드를 각각 공개 플랫폼인 Synapse와 GitHub에 공개했으며, 이번 연구 결과는 Scientific Data 최신호에 게재됐다.

대학병원