세부과제
초고차원 멀티모달 파운데이션 모델 연구
현실 세계를 정밀하게 반영하는 고차원 생성형 AI 기술의 새로운 지평
생성형 인공지능이 고도화될수록 현실 세계의 물리 법칙, 다양한 센서 정보, 개인 프라이버시, 고차원 시계열 및 3D·4D 데이터까지 포괄적으로 이해하고 반영할 수 있는 모델이 요구되고 있다. 3세부과제는 이러한 흐름 속에서, 현실 세계와 정밀하게 상호작용 가능한 고차원 멀티모달 파운데이션 모델을 구축하는 것을 목표로 한다.
이 연구는 영상, 의료, 분자 구조, 시계열 데이터, 프라이버시 보호 등 다양한 도메인을 아우르는 초고차원 생성형 AI 기술의 핵심 기반을 마련하고자 한다. 특히 다양한 유형의 현실 센서 데이터와 물리적 환경, 인간의 선호와 윤리까지 반영하는 통합적 접근이 강조된다.
KAIST는 멀티모달 이미지·텍스트 데이터 세트를 활용해 디퓨전 트랜스포머(DiT, Diffusion Transformer) 기반의 텍스트-영상 생성 모델과 4D 생성 모델을 개발하고 있다. 텍스트 입력의 품질을 높이기 위해 프롬프트 리캡셔닝(prompt recaptioning) 기법을 적용하고 있으며, 비전-언어 모델과 연동해 텍스트, 비디오, 의료 데이터를 생성하는 연구도 병행하고 있다. 또한 실사형 3D 모션 예측 기술과 고자기장 MRI 데이터를 활용한 의료 영상 생성 모델도 동시에 개발하고 있다.
POSTECH은 미시 세계의 물리 법칙을 반영한 3차원 분자 구조 생성 모델을 개발하고 있다. 물리적으로 안정적인 분자 구조를 생성하기 위해 외부 시뮬레이터와 상호작용하는 대화형 학습 구조를 도입했으며, 강화학습 기반의 커리큘럼 학습 기법도 적용해 모델의 정확성과 안전성을 높이고 있다.
연세대는 사용자의 선호와 현실 기반 요구를 반영한 강화학습 기반 최적화 기법(RLHF, DPO 등)을 통해 실제 활용도 높은 생성형 AI 모델을 개발하고 있다. 다수 시점에서의 이미지 정보를 통합해 정제되지 않은 영상으로부터 정밀한 3D·4D 재구성을 수행하며, 멀티 오브젝트 상황에서도 선호 기반 판단이 가능한 아키텍처 설계에 주력하고 있다.
고려대는 시계열 생성에 특화된 LLM 기반 구조를 개발하고 있으며, 시간적 역학 특성을 반영한 데이터 토큰화, 시계열 예측, 다변량 생성 등에서 도메인 법칙을 효과적으로 적용하고 있다. 아울러 회전·이동 불변성을 반영한 SE(3) 등가 신경망, 해밀토니안 기반 물리 특성 예측 등도 병행하여 고정밀 과학 데이터를 생성할 수 있는 모델을 구현하는 중이다.
한편, 실세계에 적용 가능한 프라이버시 보호 기술도 이 연구의 핵심 영역이다. LoRA(Low-Rank Adaptation) 기반의 실시간 개념 제거, 메타러닝 기반의 원샷(one-shot) 프라이버시 표현 제거 기술, 사용자 요청 기반 표현 제거 등을 통해 프라이버시 친화적 생성형 AI를 구현할 계획이다.
또한 시간과 공간을 모두 반영하는 4D 생성 파운데이션 모델 개발도 병행하고 있다. 이 모델은 기존의 2D/3D 생성 기술을 넘어 시간 변화와 카메라 시점 이동까지 고려해 고차원적 데이터 생성을 가능케 한다. 더 나아가 단순한 형상 복원을 넘어 의미론적 정보까지 포함할 수 있는 예측 가능한 표현 설계로 확장되고 있다.
이 연구는 향후 정밀 의료, 신약 설계, 로보틱스, 스마트 제조, 보안 친화적 AI 서비스 등 다양한 분야에 응용될 수 있다. 현실 세계의 복잡한 구조와 윤리적 요구까지 반영할 수 있는 고성능 파운데이션 모델 개발은 생성형 AI의 신뢰성과 적용 범위를 획기적으로 넓히는 기반이 될 것이다.
3세부 연구책임자인 예종철 KAIST 교수는 다음과 같은 포부를 밝힌다. “본 연구팀은 영상, 바이오, 도시 분야를 중심으로 물리학적 원리를 바탕으로 한 고차원 생성·추론 기술을 개발하고 있습니다. 모노큘러 영상의 2D 트랙을 활용한 상대 깊이 추론, BFN+DPO 기반의 다중 물성 분자 생성, 3D 의미 지도를 통한 보행자 행동 생성, 그리고 최대 256배까지 확대 가능한 초해상도 Chain-of-Zoom 기법 등을 통해 다양한 현실 문제에 접근하고 있으며, 디지털 트윈, 신약 개발, 도시계획, 고해상도 콘텐츠 생성 등 광범위한 응용 가능성을 제시합니다.”