세미나

비전과 인공지능을 위한 월드 모델: 베이즈가 답이다

2026년 6월 2일 · 앨런 율 · 존스홉킨스대

거대언어모델과 비전-언어모델(VLM)이 의미 이해의 경계를 넓혀가는 가운데, 앨런 율 존스홉킨스대 블룸버그 석학교수가 날카로운 반론을 제시했습니다. 현재 인공지능의 발전을 가로막고 있는 것은 추론이 아니라 지각(perception)이라는 것입니다. 그는 컴퓨터과학과 인지과학을 아우르는 수십 년의 연구를 바탕으로, 오늘날의 모델에는 인간이 유아기부터 물리 세계와 상호작용하며 자연스럽게 습득하는 3D·4D 세계 지식이 여전히 결여돼 있다고 주장했습니다.

국가AI연구거점(NAIRL)과 KAIST 김재철AI대학원은 5월 29일 서울AI허브에서 율 교수를 연사로 초청해 석학초청세미나를 공동 개최했습니다. ‘비전과 인공지능을 위한 월드 모델: 베이즈가 답이다’를 주제로 열린 이번 세미나에는 비전 연구가 나아가야 할 방향에 대한 그의 관점을 듣기 위해 연구자, 대학원생, 산업계 전문가 등 50여 명이 참석했습니다.

율 교수는 문제의 틀을 잡기 위해 1980~90년대에 정립된, 분석(analysis)과 합성(synthesis), 사전 세계 지식(prior world knowledge)을 결합하는 베이즈 프레임워크를 다시 꺼내 들었습니다. 그는 이 관점이 지각과 추론, 행동을 통합하는 일관된 방식을 제공하며, 시스템이 두 과정을 하나의 불투명한 단계로 뭉뚱그리는 대신 먼저 세계의 3D 구조를 추정한 뒤 이를 바탕으로 추론할 수 있게 한다고 설명했습니다.

서울AI허브에서 열린 세미나에서 참석자들이 율 교수의 발표를 경청하고 있다. (사진=국가AI연구거점)

이러한 관점 위에서 율 교수는 자신의 주장을 뒷받침하는 세 갈래의 연구를 소개했습니다. 첫째, 최신 VLM들이 물체의 상대적 높이, 거리, 방향을 판단하는 것처럼 진정한 3D 이해를 요구하는 시각적 질의응답 과제에서 인간의 거의 완벽한 성능과 달리 54 AP에 그치는 저조한 성적을 보인다는 점을 제시했습니다. 그는 3D 인지 데이터로 VLM을 미세조정하고 추론에 앞서 3D 구조를 명시적으로 추정하도록 하면 이 격차가 크게 줄어들어, 합성 벤치마크에서 인간 수준의 정확도에 근접함을 보였습니다. 둘째, 값비싼 전문가 주석에 의존하는 대신 CT 스캔과 영상 판독 보고서 쌍으로부터 직접 종양 탐지 시스템을 학습시키는, 과제를 결측 데이터 문제로 접근한 의료 영상 분석 연구를 소개했습니다. MICCAI 최우수 논문으로 선정된 이 접근법은 췌장 종양에서 영상의학 전문의를 능가하는 탐지 성능을 달성했습니다.

셋째, 율 교수는 능동적 인식, 이미지 목표 내비게이션, 체화형 질의응답, 로봇 조작 등 체화형 에이전트 과제에서 생성형 월드 모델을 평가하는 새로운 벤치마크를 설명했습니다. 이 벤치마크는 에이전트가 행동에 앞서 그 결과를 상상해 볼 수 있게 하는 심적 모델(mental model)로서 월드 모델이 기능할 수 있는지를 검증하도록 설계됐으며, 그는 이 역량을 지각과 행동을 잇는 핵심으로 자리매김했습니다.

강연을 마무리하며 율 교수는 비전 연구자들이 세계의 3D·4D 속성을 추정할 수 있는 모델을 만들어야 한다고 강조했습니다. 이러한 구조화된 접근이 지름길 학습(shortcut learning)에 덜 취약하고 더 해석 가능한 AI 시스템으로도 이어진다는 점을 함께 짚었습니다. 국가AI연구거점은 앞으로도 세계 각지의 선도적인 AI 연구자들과의 지속적인 교류를 통해 국내 연구자들이 첨단 AI 기술을 바탕으로 과학적 발견과 산업적 혁신을 함께 이끌어 갈 수 있는 생태계를 조성해 나갈 계획입니다.