국가AI연구거점(NAIRL) 참여 연구진인 KAIST AI 심현정 교수 연구팀이 멀티모달 거대언어모델(MLLM)을 자동 평가자로 활용할 때 발생하는 시각 인식 편향을 규명하고, 이를 완화하는 새로운 학습 방법을 제안한 연구를 공개했습니다.
최근 멀티모달 AI 모델은 다른 AI의 답변을 채점하는 ‘판정자(Judge)’ 역할로 널리 활용되고 있습니다. 하지만 연구팀은 이러한 판정자 모델이 이미지에 실제로 보이는 내용보다, 그럴듯하게 들리는 텍스트 설명에 더 의존하는 경향이 있음을 발견하고, 이를 ‘인식 판정 편향(Perceptual Judgment Bias)’이라는 개념으로 정의했습니다.
연구팀은 박서정·최지호 공동 1저자를 비롯한 KAIST AI 소속 연구원들과 함께 진행한 이번 연구에서, 이미지에 미세한 변형을 가하는 통제 실험을 통해 기존 판정자 모델이 자신이 본 시각 정보를 신뢰하지 못한다는 점을 정량적으로 입증했습니다. 이는 자동 평가의 일관성과 검증 가능성을 저해하는 핵심 요인으로 지목됩니다.
이를 해결하기 위해 연구팀은 ‘인식 변형 판정 데이터셋(PPJD)’을 새롭게 구축했습니다. 원본 답변에 최소한의 시각적 변형만을 가한 반사실적(counterfactual) 응답을 생성해, 인식 오류만을 분리해 학습시킬 수 있도록 설계된 데이터셋입니다. 연구팀은 이 데이터셋을 기반으로 강화학습 기법(GRPO)을 활용한 학습 프레임워크를 개발했으며, 다양한 벤치마크에서 시각 인식 정확도와 인간 평가와의 정렬도 등 핵심 지표를 의미 있게 개선했습니다.
이번 성과는 KAIST CVML Lab이 추구해 온 ‘안전하고, 물리적으로 정합하며, 신뢰할 수 있는 AI’ 연구 비전과 맞닿아 있습니다. 연구실은 생성형 AI의 공정성, 안전 중심 인식·추론, 물리적 정합성, 효율적 학습 등 신뢰성 기반 AI 연구를 폭넓게 수행해 왔습니다.
멀티모달 시스템이 과학, 산업, 의사결정 도구로 빠르게 확장되는 흐름 속에서, 판정자 모델의 신뢰성과 검증 가능성을 확보하는 일은 거점이 주력해 온 핵심 연구 의제 중 하나입니다. 심현정 교수 연구팀의 이번 성과는 거점이 지향하는 글로벌 개방형 혁신 생태계(Global Open Innovation Ecosystem) 안에서 축적되는 의미 있는 결실로 평가됩니다. 논문 프로젝트 페이지: https://perceptionjudge.github.io/
KAIST CVML Lab: https://kaist-cvml.github.io/