인사이터 컨소시엄 자폐 스펙트럼 장애 조기 선별 시선 추적 AI 모델 성과

어린 자녀를 둔 부모이거나 소아과 의사로서 ‘조기에 놓치면 안 된다’는 불안, 또 새로운 기술이 정말 신뢰할 만한지에 대한 의문—모두 공감합니다. 자폐 스펙트럼 장애 조기 선별 시선 추적 AI 모델이 어떤 원리로 작동하고, 민감도·특이도 같은 성능 지표와 임상·윤리적 고려사항이 실제로 어떤 의미인지 핵심부터 명확히 정리합니다.

글의 목차

핵심 요약: 무엇이 개발되었나, 현재 상태는 어떠한가

인사이터 주관 컨소시엄(한림대학교 춘천성심병원, ㈜에버트라이, 서울여자대학교)은 2년 과제의 1차 연도에서 일반 RGB 카메라로 유아의 시선을 정밀 추적하는 AI 모델 개발을 완료했고, 내부 성능 평가는 1차년도 목표치를 상회했습니다. 한림대병원은 IRB 승인 하에 영유아 임상 데이터를 수집 중이며, 에버트라이는 인허가 전략을 지원해 2026년까지 선별 모델 및 GMP 인증을 목표로 하고 있습니다.

국내·공공 연구 계열에서도 유사한 노력들이 진행 중이며, 한국전자통신연구원(ETRI) 주도 프로젝트는 분당서울대병원 협력으로 42개월 이하 영유아 3,531건의 데이터를 이용해 선별 지표의 민감도 평가를 수행한 바 있습니다. 다만 공개된 문헌에서는 구체적 민감도·특이도 수치가 아직 공개되지 않았습니다. 이러한 연구들이 상호 보완적으로 검증 데이터를 늘려가는 점은 긍정적입니다.

다음 섹션에서는 모델의 원리·아키텍처, 데이터·장비 요구사항, 검증 설계, 윤리·규제와 상용화 관점까지 순서대로 정리합니다.

모델 원리와 권장 아키텍처

이 모델은 사회적 자극(흥미 대상 제시, 이름 부르기 등)을 보여주는 동안 촬영된 영상에서 시선(응시점 및 응시 지속시간), 호명 반응, 제스처, 표정·감정, 모방·상동 행동 등을 자동 인식해 선별 지표를 산출합니다. 핵심 설계 권장안은 다음과 같습니다.

영상 프레임별 특징 추출: CNN 계열 백본(예: ResNet 계열)을 사용해 얼굴, 눈의 위치, 표정과 제스처 특징을 추출합니다.
시간적 패턴 학습: 시선 궤적과 행동의 시간적 연속성 학습을 위해 LSTM·GRU 또는 Transformer 계열을 결합합니다.
멀티모달 통합: 시선 궤적(좌표·속도), 응시 지속시간·빈도 등 수치형 특성과 프레임 기반 시각 특징을 통합 입력으로 처리해 최종 분류기를 학습합니다.
행동 검출 모듈: 호명 반응(음성 이벤트와 시선 전이), 모방·상동 행동 탐지용 특수 분류기를 추가해 다중 신호의 조합으로 선별 점수를 산출합니다.

이 아키텍처는 실시간 피드백 또는 배치 분석 모두에 적용 가능하며, 온디바이스 전처리(얼굴 탐지·비식별화)와 서버 기반의 심층 분석을 혼합해 개인정보 위험을 줄일 수 있습니다.

데이터·장비 요구사항과 수집 프로토콜

실제 신뢰성 있는 모델을 만들려면 데이터 품질과 라벨링이 결정적입니다. 프로젝트들이 제시한 표준 요건은 다음과 같습니다.

수집 영상 길이: 콘텐츠 시청 중 최대 6분을 기본으로 하며, 상용 검사 설계는 약 10분 내외를 목표로 함.
카메라 스펙: 일반 RGB 카메라로도 가능하나 최소 해상도·프레임레이트·조명 조건을 명시해야 함(아래 표 참조).
촬영 환경: 카메라 각도·거리·조명·배경 통제, 간단한 캘리브레이션(눈 위치 기준점) 필수.
메타데이터: 연령(개월 단위), 성별, 문화권·언어, 기기 메타데이터 포함.
라벨링: 임상 진단(ASD/비ASD)을 기준 라벨로 하고, 행동별 어노테이션(응시여부·호명반응·모방 등)을 다중 평가자가 교차확인하여 라벨 품질 확보.

아래는 권장 카메라·촬영 기본 사양 예시입니다.

항목	권장 값(최소 – 권장)
해상도	720p – 1080p
프레임레이트	30fps – 60fps
조명	균일한 실내 조명(주광) / 역광 회피
카메라 각도	눈높이 ±15도, 얼굴 중앙이 프레임의 중앙에 위치
거리	0.5m – 1.5m(카메라 전면)

데이터셋 구축 단계에서는 연령대별(특히 12-24개월), 문화·언어별 표본을 의도적으로 확보해 편향을 줄이는 것이 매우 중요합니다.

검증 지표·시험 설계 및 실무적 해석

임상 적용을 위해 필수적인 검증 지표와 설계 방침은 다음과 같습니다.

권장 지표: 민감도·특이도·PPV·NPV, ROC·AUC 보고.
검증 방법: k-fold 교차검증과 함께 독립 외부 검증 데이터셋으로 일반화성 확인.
세부 분석: 연령·문화·기기별 하위그룹 성능 분석 및 재현성(테스트-재테스트) 평가.
오류 공개: 거짓양성·거짓음성 비율과 임상적 의미(추적조치 권고)를 투명하게 공개.

현재 상태 요약: 인사이터 컨소시엄의 내부 평가는 1차년도 목표치를 상회했으나 구체적 민감도·특이도 수치는 공개되지 않았습니다. ETRI 계열의 대규모 데이터(3,531건)를 활용한 민감도 평가는 수행되었으나 역시 공개 수치가 제한적입니다. 따라서 임상의나 부모는 실제 서비스가 외부 독립 검증 결과·연령별 성능표를 제시하는지를 확인해야 합니다.

임상적 의미: 높은 민감도는 조기 선별에서 중요하나 민감도만 높이고 특이도가 낮으면 거짓양성으로 불필요한 불안과 추가 비용이 발생합니다. 반대로 특이도가 지나치게 높고 민감도가 낮으면 조기 발견 기회를 놓칩니다. 따라서 민감도·특이도의 균형과 후속 경로(추가 진단·상담) 명확화가 필수입니다.

임상 적용·윤리·규제 고려사항

임상 도입과정에서 다음 항목을 준비해야 합니다.

동의와 개인정보: 부모·법정대리인의 서면 동의, 영상의 비식별화·암호화·보관기간 명시, 온디바이스 처리 옵션 제공 권장.
임상시험 및 규제: 의료기기 인허가(국가별 규제), 임상시험 설계(IRB 승인 포함), 임상시험수탁기관의 인허가 전략 지원 필요. 인사이터 컨소시엄은 2026년까지 GMP 인증 목표를 설정해 규제 준비를 진행 중입니다.
윤리·사회적 영향: 아동 데이터의 민감성으로 인해 투명한 오류율 공개, 편향 완화 절차, 데이터 접근 권한 통제, 연구 결과의 책임 있는 해석 필요.
보고 및 후속관리 워크플로: 검사 결과는 ‘선별’ 결과로서 확진이 아님을 명확히 안내하고, 양성 또는 의심 소견 시 추적 진단·개입 경로(발달센터, 소아정신과 연계)를 즉시 제공하는 표준 운영절차가 필요합니다.

이들 요소는 부모의 불안 완화와 임상의의 진료 부담을 줄이는 동시에 규제 승인의 핵심 논거가 됩니다.

상용화·배포 전략 및 비용·접근성

현장 적용성을 높이려면 다음 전략을 고려해야 합니다.

하드웨어 선택: 일반 카메라 기반 모바일/태블릿 앱은 비용·접근성 측면에서 유리하며, 필요시 IR 보조 센서를 옵션으로 제공.
운영 환경: 유아원·보육시설·발달센터·가정에서 사용 가능하도록 사용자 교육 자료와 교사용 결과 해석 가이드를 포함.
품질관리: 현장 데이터 품질 체크리스트, 정기적 모델 리트레이닝 및 편향 모니터링 체계 필요.
통합 경로: 검사 결과를 전자차트나 텔레헬스 플랫폼과 연계해 임상 연속성을 확보.
비용 구조: 초기 도입비용을 낮추기 위해 구독형 소프트웨어 + 저비용 카메라 조합을 권장하고, 국가·공공 보조나 보육시설 중심의 파일럿 도입으로 접근성 확대를 모색.

컨소시엄의 목표인 10분 내외 검사 구성과 저가 하드웨어 기반 설계는 현장 확산 가능성을 높이는 방향입니다.

결론 — 핵심 인사이트와 다음 단계 제언

요약하면, 자폐 스펙트럼 장애 조기 선별을 위한 시선 추적 AI 모델은 시선·행동의 멀티모달 신호를 결합해 선별 지표를 산출하는 방식으로, CNN + 시계열 모델(예: LSTM/Transformer) 구조가 권장됩니다. 데이터 품질(연령·문화 다양성 포함)과 라벨링, 외부 독립 검증이 신뢰성의 관건이며, 개인정보·윤리·임상 워크플로의 명확화가 상용화 성공을 좌우합니다. 현재 국내 컨소시엄 및 연구 그룹들이 대규모 데이터 확보와 임상 검증, 규제 준비를 병행하고 있어 향후 1-2년 내에 보다 투명한 성능 지표 공개와 외부 검증 결과가 나올 가능성이 큽니다.

실무적 제언:

소아과 의사: 해당 솔루션 도입 시 외부 검증 결과와 연령별 성능표, 후속 진료 경로 확인을 요구하세요.
연구자·개발자: 라벨링 프로토콜의 다중 평가자 교차확인과 문화·기기 메타데이터 수집을 우선 설계하세요.
부모: 검사 도구는 ‘선별’임을 이해하고, 동의서·데이터 보관정책·후속 연계 방안을 반드시 확인하세요.

이 글은 기술적 원리와 운영상의 핵심 포인트를 모아 드렸습니다. 추가로 특정 항목(예: 라벨링 템플릿, 임상시험 설계 체크리스트, 데이터 전처리 파이프라인) 중 하나를 더 깊게 정리해 드릴 수 있습니다.

자주하는 질문

자폐 스펙트럼 장애 조기 선별을 위한 시선 추적 AI 모델은 어떤 원리로 작동하나요?

이 모델은 일반 RGB 카메라로 촬영한 영상을 바탕으로 유아의 시선(응시점·응시 지속시간), 호명 반응, 제스처, 표정·감정, 모방·상동 행동 등을 자동 인식해 ‘선별 점수’를 산출합니다. 기술적 구성은 대체로 다음과 같습니다.
– 프레임별 시각 특징 추출: ResNet 계열 등의 CNN으로 얼굴·눈·표정·제스처 특징을 뽑음.
– 시간적 패턴 학습: LSTM·GRU 또는 Transformer로 시선 궤적과 행동의 연속성을 학습.
– 멀티모달 통합: 시선 좌표·속도, 응시 지속시간 같은 수치형 특성과 프레임 기반 특징을 결합해 최종 분류기 학습.
– 행동 검출 모듈: 호명 반응(음성 이벤트와 시선 전이), 모방 행동 감지를 위한 특수 분류기 추가.
운영상으로는 온디바이스(얼굴 탐지·비식별화) 전처리와 서버 기반 심층 분석을 혼합해 개인정보 위험을 낮출 수 있으며, 검사 시간은 보통 최대 6분(상용은 ~10분 내외)을 목표로 합니다.

민감도·특이도 등 성능은 얼마나 신뢰할 수 있나요?

현재 국내 컨소시엄(인사이터 등)은 1차 연도 내부 평가에서 목표치를 상회했다고 보고했으나, 구체적 민감도·특이도 수치는 공개되지 않았습니다. ETRI 계열 연구는 3,531건의 데이터를 이용해 민감도 평가를 수행했지만 공개된 숫자는 제한적입니다. 실무적 해석은 다음과 같습니다.
– 민감도(재현율)는 조기 선별에서 중요하지만, 민감도만 높이고 특이도가 낮으면 거짓양성이 많아 불필요한 불안·비용을 초래합니다.
– 특이도가 지나치게 높으면 실제 놓치는 사례(거짓음성)가 생길 수 있습니다. 따라서 균형(ROC/AUC, PPV, NPV)과 연령·문화·기기별 하위그룹 성능을 확인해야 합니다.
권장 검증 기준: 독립 외부 데이터셋 검증, k-fold 교차검증, 연령별 성능표 및 오류(거짓양성·거짓음성) 비율 공개. 의료현장 도입 전에는 공급사에 외부 독립 검증 결과와 연령별 성능표를 요구하세요.

부모나 소아과 의사로서 이 도구를 사용할 때 무엇을 확인해야 하나요?

검사 도구는 ‘선별(screening)’ 도구이며 확진이 아님을 명확히 이해해야 합니다. 사용 전·후 확인할 주요 항목은 다음과 같습니다.
– 검증 여부: 외부 독립 검증 결과, 연령별 성능표(특히 12–24개월), ROC/AUC, PPV/NPV 제시 여부 확인.
– 후속 경로: 양성 또는 의심 소견 시 즉시 연결될 진단·상담(발달센터·소아정신과) 경로가 명확한지 확인.
– 개인정보·동의: 부모(법정대리인) 서면 동의, 영상 비식별화·암호화·보관기간, 온디바이스 처리 옵션 유무 확인.
– 장비·환경 요구: 권장 해상도(최소 720p~권장 1080p), 프레임레이트(30–60fps), 카메라 거리(0.5–1.5m), 눈높이 ±15도 등 촬영 조건 준수 여부 점검.
– 투명성: 거짓양성·거짓음성 비율과 편향 완화 절차 공개 여부, 데이터 접근 권한 통제 확인.
실무 팁: 도입 전 공급사에 연령별 성능표, 외부 검증 리포트, 라벨링 프로토콜(다중 평가자 교차확인)·샘플 크기 정보를 요청하고, 검사 결과는 즉시 부모에게 ‘선별 결과’임을 고지하고 후속 진료 안내를 제공하세요.