[Research Highlight] 박은병 연세대 첨단컴퓨팅학부 교수

초거대 3D 재구성 모델

3D 재구성의 새로운 관점, 일반화된 3D 재구성

뉴럴 스케일링 법칙은 AI 시스템의 성능이 훈련 데이터, 모델 매개변수, 컴퓨팅 자원이 증가함에 따라 예측 가능하게 향상되는 현상을 말한다. 이 법칙에 따라 글로벌 AI 리더들은 AI 투자에 총력을 다하고 있지만, GPU, 메모리, 에너지 등 인프라 전반에서 병목이 발생하고 있어 갈수록 스케일 중심 경쟁보다디지털 트윈, 로보틱스, 자율주행, 확장현실(XR) 등 현대의 주요 기술들은 현실 공간을 빠르고 정확하게 디지털 3차원 형태로 재구성하는 능력이 필요하다. 전통적인 3D 재구성은 여러 시점의 이미지를 바탕으로 점군(point cloud), 메시(mesh), 또는 볼류메트릭(voxel) 형태의 3D 모델을 만들어내는 과정으로, 수십 년 동안 컴퓨터 비전과 그래픽스 연구의 중심에 있었다.

그러나 기존 방식은 대체로 시간을 많이 소모하고 계산량이 높은 반복적 최적화(iterative optimization)가 필요했다. 예를 들어 NeRF(Neural Radiance Fields) 혹은 3DGS(3D Gaussian Splatting) 기반 모델은 한 장면(scene)을 재구성하기 위해 수십 분에서 수 시간의 최적화 과정이 필요하다. 이러한 방식은 고정된 장면이나 오프라인 렌더링에는 적합하지만, 로봇 실시간 인지, 대규모 공간 스캔, AR·VR에서의 즉각적인 상호작용에는 한계가 있다.

최근에는 대규모 데이터셋과 강력한 신경망 모델을 활용해 하나의 학습된 모델이 여러 장면을 빠르게 재구성하는 일반화된(generalizable) 3D 재구성 모델이 각광받고 있다. 이러한 연구 방향에서 feed-forward 3D reconstruction, 즉 입력 이미지를 한 번의 전 방향 계산으로 즉시 3D 장면을 예측하는 패러다임이 새로운 돌파구로 등장했다.

왜 Feed-forward 방식인가?

Feed-forward 방식의 가장 큰 장점은 속도다. per-scene 최적화 기반 모델이 매 장면마다 반복 계산을 수행하는 반면, feed-forward 방식은 이미지를 입력하면 즉각 3D 재구성 결과를 획득할 수 있다. 이로 인해 다음과 다양한 응용 분야에 사용될 수 있다.

① 실시간 로보틱스 및 자율주행: 로봇이나 자율주행차는 주변 환경을 즉시 이해해야 한다. 수 초에서 수십 초의 계산 지연은 치명적인 오류로 이어질 수 있다. Feed-forward 모델은 초 단위 이하의 속도로 환경을 인식할 수 있어 실전 배치가 가능하다.

② AR·VR에서의 즉각적인 공간 이해: 사용자가 스마트폰이나 HMD로 방을 스캔할 때, 기다리지 않고 실시간으로 장면이 3D로 변환된다면 완전히 새로운 사용자 경험이 가능하다.

③ 대규모 3D 지도 제작의 효율성 향상: 대규모 실내·실외 공간을 스캔하는 기업이나 기관은 수백~수천 개의 장면을 처리해야 한다. 다수의 이미지를 효율적으로 처리할 수 있는 기술을 개발한다면 개발 및 운영 비용을 획기적으로 줄일 수 있다.

연세대 V-Lab 연구실을 이끌고 있는 박은병 교수(뒷줄 가운데)가 연구원들과 함께 교내에서 찍은 단체 사진.

또 너야? Transformer

최근 Dust3R를 비롯한 여러 후속 모델들은 다시점 이미지를 통합해 3D 구조를 복원하는 데 Transformer 기반 아키텍처가 매우 효과적임을 보여주고 있다. ‘어디서나 Transformer!’라고 느껴질 정도지만, 실제로 3D 재구성 문제에서는 Transformer가 갖는 자연스러운 시점 간 상호작용 능력이 강력한 무기다. 특히 Transformer의 self-attention은 이미지 간의 관계를 세밀하게 파악하고, 그 과정에서 시점 간 대응(correspondence)을 포착한다. 이는 3D 재구성의 본질적 요소와 맞닿아 있어, 다시점 구조 이해라는 문제에서 Transformer가 선택되는 것은 우연이 아니다. 그러나 이러한 장점에도 불구하고, 기존 multi-view Transformer는 다음과 같은 구조적 한계를 갖고 있다.

① 계산량 폭증: Attention의 숙명으로, 이미지 수가 N이면 multi-view attention의 계산량은 O(N²) 수준으로 폭발적으로 증가한다. 예를 들어 입력 이미지가 100장만 되어도, Attention 연산은 수십만 쌍의 관계를 한꺼번에 고려해야 하는 상황이 된다. 이는 메모리와 시간 측면 모두에 큰 부담을 준다.

② 대규모 장면에서는 곧바로 한계에 도달: 현실의 건물, 실내 공간, 건축물 단위의 스캔을 위해서는 수백 장의 이미지가 필요하다. 그러나 기존 모델들은 GPU 메모리가 부족해지거나 속도가 극단적으로 느려지며 확장성(scalability)에서 명확한 한계를 드러낸다.
결국 기존의 multi-view Transformer들은 강력한 표현력을 가지고 있음에도 불구하고, 실시간·대규모 3D 재구성이라는 목표에는 부적합한 부분이 있었다. 이러한 이유로, Transformer의 장점은 취하되 구조적 비효율을 해결할 새로운 방식이 필요해졌다.


제안된 모델의 전체 구조.

확장성이 뛰어난 multi-view Transformer

제안하는 방법은 기존의 feed-forward 3D Gaussian Splatting 기반 재구성 모델들이 갖고 있던 가장 큰 약점(입력 뷰 수가 늘어날수록 폭증하는 비효율적인 multi-view attention 구조)을 해결하기 위해 고안된 새로운 대규모 3D 재구성 프레임워크다. 기존 방법의 대부분은 고해상도 다중 뷰 이미지의 모든 토큰을 서로 Attention 시키는 방식에 의존해, 계산량이 뷰 수 및 해상도에 따라 이차적으로 증가(Quadratic complexity)하는 구조적 한계를 갖는다. 제안하는 방법은 이 문제를 해결하기 위해 ① 입력 이미지와 3D 표현(gaussians)을 완전히 분리(decoupling)하고, ② multi-view attention을 두 단계(per-view cross-attention → compact viewpoint self-attention)로 분해해 계산량을 획기적으로 줄였으며, ③ 매 레이어에서 ‘업데이트 블록’을 반복 적용하는 iterative refinement 구조로 기존의 정교한 3D 일관성을 확보한다. 이를 통해 iLRM은 많은 입력 뷰를 처리하면서도 실시간에 가까운 속도로 고품질 3D 재구성을 수행할 수 있는 모델이다.

또한 viewpoint embedding에서 직접 3D Gaussian을 생성하는 독창적인 방식과 다양한 설계를 통해 고해상도 시각 정보를 유지하면서도 컴팩트한 3D 표현을 생성한다. RE10K, DL3DV 등 대규모 벤치마크에서 기존 feed-forward 모델은 물론 일부 최적화 기반 3DGS 방법까지 능가하는 품질과 속도를 보이며, 특히 많은 수의 입력 뷰를 사용할수록 더 높은 효율성을 발휘해 확장성 측면에서 새로운 표준을 제시한다. 이러한 특징 덕분에 iLRM은 향후 pose-free, dynamic reconstruction 등 다양한 3D 분야로 확장 가능한 다음 세대 대규모 3D 재구성 아키텍처의 기반이 될 것으로 기대된다.

앞으로의 확장 가능성: 기초 모델로서의 잠재력

현재는 정적 장면을 대상으로 한 feed-forward 3D 재구성에 초점을 맞추고 있지만, 제안된 구조는 훨씬 더 넓은 문제 설정으로 자연스럽게 확장될 수 있는 잠재력을 지니고 있다. 시간 정보를 통합하면 동적 장면 재구성, 동작 캡처, dynamic NeRF와 같은 시계열 기반 3D 이해로 확장할 수 있으며, 깊이·LiDAR와 같은 기하정보를 예측하도록 하여, 정밀한 메트릭 수준의 3D 복원, 대규모 매핑, SLAM과 같은 기하 중심 문제에도 적용 가능하다. 또한 제안된 방법의 모듈성과 확장성은 대규모 데이터 기반의 범용 multi-view foundation model로 발전할 수 있는 기반을 제공한다. 다양한 모달리티(영상·포인트·텍스트)를 통합하는 방식으로 확장하면, 복잡한 3D 환경을 포괄적으로 학습하고, 다양한 3D 이해와 생성 과제를 하나의 모델이 처리하는 방향으로 진화할 수 있다.

The Heart of AI Innovation in Korea

108, Taebong-ro, Seocho-gu, Seoul 06764, Republic of Korea

Tel. +82 2-958-0746

© National AI Research Lab 2024. All rights reserved.

If you have any problems with the website or need technical support, please contact inquiry@dvn.ci