[Insight Talk] 세계적 석학 장 퐁스 교수 인터뷰

“기초를 묻고, 이론의 밑그림을 그리는 것이 AI 시대의 연구”
컴퓨터 비전 분야의 세계적 석학 장 퐁스 교수 인터뷰

장 퐁스(Jean Ponce)
• 프랑스 파리 고등사범학교(ENS-PSL) 컴퓨터과학부 교수
• 뉴욕대학교 Courant 수학과학연구소 및 데이터사이언스센터 글로벌 석좌교수
• 파리 AI 융합연구소 PR[AI]RIE-PSAI 과학디렉터
• Enhance Lab 공동 창립자 및 CEO

“AI를 ‘더 잘 작동하게’ 만들기보다는 AI가 왜 작동하는지를 이해하고 싶었습니다.”

파운데이션 모델이 연구와 산업 전반을 휩쓸고 있는 지금, 근본적인 원리와 역사적 시야를 되짚는 연구는 어떤 의미가 있을까? 컴퓨터 비전 분야의 세계적 권위자인 장 퐁스(Jean Ponce) 교수는 AI가 어떻게 작동하는지를 깊이 탐색하는 연구가 여전히 중요하다고 말한다.

퐁스 교수는 프랑스 고등사범학교(ENS-PSL) 컴퓨터과학과 교수이자 뉴욕대(NYU) 쿠란트(Courant)수리과학연구소 및 데이터사이언스센터 글로벌 석좌교수로 있으며, 파리 AI 융합연구소 PR[AI]RIE-PSAI의 과학디렉터이자 스타트업 인핸스 랩(Enhance Lab)의 CEO를 맡고 있다. 서울에서 열린 ‘글로벌 AI 프론티어 심포지엄 2025’에서 발표를 마친 그와의 인터뷰를 통해, 컴퓨터 비전의 철학, 자기지도학습의 구조, 그리고 다음 세대 AI 연구의 방향성을 들어봤다.

자기지도학습을 이해하는 새로운 시선을 선보이다

퐁스 교수는 ‘Dual Perspectives on Non-Contrastive Self-Supervised Learning’이라는 강연을 통해, 딥러닝의 작동 원리를 새롭게 해석할 수 있는 틀을 제시했다. 그는 딥러닝이 실제로 놀라울 정도로 좋은 성능을 보이지만, 그 성능의 근본 원인을 이론적으로 설명하는 데에는 여전히 한계가 있다는 문제의식에서 출발했다.

특히 그는 자기지도학습(self-supervised learning) 분야에서 사용되는 대표적인 기법들, 예를 들어 정지 그래디언트(stop-gradient)나 지수이동평균(EMA, Exponential Moving Average) 기법이 어떻게 모델의 표현 붕괴(representation collapse)를 방지하고 학습 성능을 향상시키는지를 주목했다. 지금까지 연구자들이 주로 이러한 현상을 최적화 이론(optimization perspective)의 관점에서 설명해왔다면, 퐁스 교수는 동역학 시스템(dynamical systems)이라는 새로운 시각에서 분석을 시도했다. 이것이 바로 그가 말하는 ‘이중 관점(dual perspectives)’이다.

실험 결과도 주목할 만하다. 그는 선형 모델(linear setting)에서는 이들 기법이 안정적으로 수렴(converge)하는 반면, 비선형 모델(non-linear setting)에서는 그렇지 않다는 사실을 확인했다. 이 발견은 딥러닝이 어떤 상황에서 잘 작동하고, 또 언제 잘 작동하지 않는지를 이해하는 데 핵심적인 실마리를 제공한다.

“컴퓨터 비전은 기본 물리와 기하학에서 출발”

“기초를 모르면 진짜 실력을 쌓을 수 없다”고 말하는 퐁스 교수는 최신 인공지능 기술인 합성곱 신경망(CNN)이나 트랜스포머를 배우고 싶어하는 학생들에게 먼저 ‘이미지는 어떻게 만들어질까? 카메라는 어떻게 작동할까?’라고 묻는다고 한다. 그가 저술한 대표 교재 『Computer Vision: A Modern Approach』는 지난 20년간 컴퓨터 비전을 배우는 학생들에게 기본기의 중요성을 강조해온 교과서다. 그는 이미지가 형성되는 물리적 원리, 카메라의 수학적 구조, 인간 시각의 기하학적 해석 등을 먼저 이해해야 한다고 말했다. 기술이 아무리 발전해도, 기초 이론이 먼저 갖춰져야 한다는 철학이다.

최근 AI 기술이 쉽게 쓸 수 있는 도구가 되면서, 누구나 딥러닝 모델을 사용할 수 있게 된 점에 대해 그는 긍정적으로 평가하다. 하지만 한편으로 그는 “이론적 깊이를 갖춘 연구자가 점점 줄어드는 것 같다”며 걱정도 함께 내비쳤다.

AI 분야는 매일같이 새로운 논문과 기법이 쏟아지는 시대지만, 퐁스 교수는 이런 흐름 속에서도 “시간이 모든 것을 증명해준다”고 강조하며 흔들리지 않는다. 10년 후에도 인용되는 논문, 여전히 널리 쓰이는 개념이 진짜 원천기술이라는 뜻이다. 예를 들어 그는 CNN이 보여준 ‘평행이동 불변성(shift invariance)’이 얼마나 강력한 ‘귀납적 편향(inductive bias)’이었는지, 트랜스포머 역시 사실은 과거의 ‘비국소 평균 필터(non-local means filter)’와 유사한 아이디어를 재발견한 것이라고 강조하며 “좋은 개념은 결국 다시 돌아온다”고 말했다. 그는 “최근 논문만 쫓지 말고, 고전 논문도 읽으라”며 “이론의 맥락 속에서 깊이 생각하는 법을 잊지 말라”는 조언도 잊지 않았다.

‘AI 프론티어 국제 심포지엄 2025’에서 발표에 나선 장 퐁스 교수.

연구 여정은 ‘한순간’이 아니라 ‘꾸준한 대화’를 통해 열려

퐁스 교수는 연구 여정에서 특별한 한순간이 인생을 바꾸었다는 식의 이야기를 하지 않았다. 대신 그는 “연구를 해오면서 끊임없이 호기심을 품고, 동료들과 대화하는 과정에서 연구의 방향이 자연스럽게 열렸다”고 말했다. 즉, 반짝이는 한순간의 아이디어보다 오래도록 꾸준히 생각하고 대화한 결과가 지금의 자신을 만들었다는 뜻이다.

그는 특히 네덜란드 위트레흐트대의 얀 쿤더링크(Jan Koenderink) 명예교수 같은 학자의 영향을 많이 받았다고 한다. 쿤더링크 교수는 인간의 시각 지각과 기하학을 연결해서, 복잡한 시각 현상을 단순한 수학 원리로 설명하려고 했던 세계적 연구자다. 이런 접근은 퐁스 교수에게 큰 철학적 영감을 주었고, 이후 퐁스 교수의 연구에서도 물리 기반의 시각 이해가 중요한 테마로 자리 잡게 됐다.

프랑스로 돌아온 후, 퐁스 교수는 같은 학교(ENS-PSL)의 프란시스 바흐(Francis Bach) 교수와의 협업을 통해 머신러닝이라는 새로운 분야에 더 깊이 발을 들였다. 바흐 교수는 통계적 학습 이론과 최적화에 밝은 연구자인데, 이 협업 덕분에 퐁스 교수는 기하학 중심의 시각 연구와 머신러닝의 수학적 기법을 융합할 수 있었다.

AI가 세상을 이해하려면 언어 외에 시각과 세계 모델 필요

퐁스 교수는 자율 AI 로봇이 현실 세계에서 안정적으로 작동하려면, 단순히 언어에 의존하는 것이 아니라 ‘세계를 이해하는 모델(World Model)’이 필요하다고 강조했다. 그는 현재의 비전-언어 모델(VLM, Vision-Language Model)이 이미지보다 텍스트에 과도하게 의존하는 경향이 있다고 비판했다. 그는 “이미지를 제거해도 모델 성능이 크게 바뀌지 않는 경우가 있다”며 “이는 시각 정보가 제대로 활용되지 않고 있다는 신호”라고 설명했다.

그는 로봇이 신뢰성 있게 움직이려면 단순히 눈앞의 이미지를 해석하는 것 이상이 필요하다고 밝혔다. 퐁스 교수는 “로봇은 보이지 않는 공간도 예측하고, 목표에 도달하기 위한 최적의 경로를 계획해야 한다”며 “이는 탐색과 추론, 즉 글로벌 탐색(global exploration) 능력이 필요하다는 뜻”이라고 말했다. 그는 현재 미국 뉴욕대(NYU)와 메타(Meta)의 얀 르쿤(Yann LeCun)이 개발 중인 JEPA(Joint Embedding Predictive Architecture)는 이러한 세계 모델 문제를 해결하려는 대표적 시도 중 하나로 언급했다.

또 퐁스 교수는 시종일관 “세상은 본질적으로 3차원(3D)”이라며 “AI가 세상을 잘 이해하려면 3D 표현을 고려해야 한다”고 강조했다. 그는 굳이 3D 모델링 데이터를 쓰지 않더라도, 여러 각도에서 촬영한 이미지들만으로도 암묵적으로(implicitly) 3D 구조를 추론할 수 있다고 설명했다.

특히 단단한 물체(rigid shape)는 비교적 다루기 쉽지만, 옷이나 단백질처럼 유연한 형태(non-rigid shape)는 훨씬 다루기 어려워 여전히 도전 과제다. 그럼에도 그는 “컴퓨터 비전 기술이 복잡한 비정형 대상을 다룰 수 있다면 과학적 탐색에도 크게 기여할 수 있다”고 밝혔다. 예를 들어 천문학에서 외계 행성을 탐지할 때 여러 차례의 관측 데이터를  종합해 행성의 존재나 궤도를 추론하거나 생물학(분자과학)에서 단백질 접힘, DNA 구조 변화 등을 최신 비전 모델로 모델링하면 신약 개발이나 질병 메커니즘 분석에 중요한 단서를 제공할 수 있다.

장 퐁스 교수는 “AI가 자동화되고 추상화될수록, 오히려 기본 물리와 기하학, 시지각의 본질에서 출발하는 연구가 더 중요한 시대가 될 것”이라고 강조했다.

“연결하고 질문하라”, 그가 말하는 AI 연구의 본질

퐁스 교수는 기하학 기반의 컴퓨터 비전(geometry-based computer vision)이 앞으로 더욱 중요해질 분야로 디지털 헬스케어, 정밀 제조, 로봇 공학 등을 꼽았다. 이 분야들에서는 정확한 포즈 인식(pose estimation), 정밀한 3D 재구성(3D reconstruction), 공간적 위치 추정(spatial localization) 등이 필수적이다. 단 1mm의 오차가 생명을 좌우하거나 생산 라인을 멈추게 할 수 있는 산업에서는 수학적 정합성과 물리 기반의 비전 기술이 매우 큰 차이를 만든다는 것이 그의 설명이다.

그는 특히 “한국 연구자들과의 협업 경험이 매우 긍정적이었다”고 회고하며, 프랑스의 AI 연구 거점인 PRAIRIE 및 ENS-PSL과 한국의 국가AI연구거점(NAIRL)의 국제 공동연구 가능성에도 기대를 표했다. 이는 단순한 기술 교류를 넘어, 기초 이론과 실용 응용을 아우르는 협력 플랫폼이 될 수 있다는 점에서 주목할 만하다.

인터뷰 말미에 퐁스 교수는 후속 세대에게 한 가지 조언을 남겼다. “좋은 아이디어는 혼자 고민한다고 나오지 않습니다. 아이디어를 주고받고, 반응을 듣고, 때로는 반박을 당하는 과정에서 진짜 통찰이 나옵니다.”

요즘 AI가 모든 분야에 퍼지고 있다. 그는 “미래는 불확실하지만 기회는 많다”며 “지금이야말로 기초를 갖춘 연구자에게 최고의 기회가 열리는 시기”라고 강조했다. 급변하는 논문 경향을 좇는 것도 중요하지만, 그 속에서 이론의 뿌리와 역사적 맥락을 함께 보는 안목이야말로 앞으로 더 빛날 자산이 될 수 있다는 말이다.

세계적인 석학인 퐁스 교수는 단지 최신 모델을 개발하거나 성능 지표를 높이는 데에만 관심을 두지 않는다. 그는 늘 ‘왜 이 기술이 작동하는가?’라고 자문한다고 한다. 기계학습 모델의 정체와 구조를 물리, 기하학, 심지어 인간 시지각 이론과 연결시키려는 그의 연구는 지금의 딥러닝 흐름 속에서 드물게 만나는 깊은 사유의 결과다.

“AI가 자동화되고 추상화될수록, 오히려 기본 물리와 기하학, 시지각의 본질에서 출발하는 연구가 더 중요한 시대가 될 것입니다.”

지금, 우리에게 필요한 연구란 그런 것이 아닐까.

The Heart of AI Innovation in Korea

108, Taebong-ro, Seocho-gu, Seoul 06764, Republic of Korea

Tel. +82 2-958-0746

© National AI Research Lab 2024. All rights reserved.

If you have any problems with the website or need technical support, please contact inquiry@dvn.ci