오픈AI 대니얼 미르자, 국가 AI 연구거점서 'AI 평가의 미래' 제시

오픈AI 대니얼 미르자, 국가 AI 연구거점서 ‘AI 평가의 미래’ 제시

Author

Yihwan Cho

Post Date

2026년 03월 19일

인공지능(AI) 모델이 연구실을 넘어 실제 산업 현장과 일상으로 빠르게 도입되는 가운데, 글로벌 프론티어 AI 연구 및 배포 기업인 OpenAI(오픈AI)에서 기존의 단편적인 벤치마크 평가를 넘어선 새로운 시스템 평가 기준이 필요하다는 통찰이 공유되었습니다.

국가 AI 연구거점(NAIRL)과 카이스트 김재철 AI 대학원은 지난 17일 서울 AI 허브에서 OpenAI의 대니얼 미르자 솔루션 아키텍트를 연사로 초청해 ‘벤치마크에서 경험으로 : 프론티어 AI 시스템의 설계와 평가’를 주제로 특별 강연을 개최했습니다.

이번 행사에는 글로벌 프론티어 AI 기술에 대한 뜨거운 관심을 증명하듯 총 300여 명의 참석자가 운집했습니다. 현장에는 120여 명의 카이스트 학생 및 연구진이 자리했으며, 온라인을 통해서도 거점 연구진 및 파트너사 임직원 60여 명과 카이스트 AI 소속 120여 명 등 180여 명이 접속해 열기를 더했습니다.

미르자 솔루션 아키텍트는 AI 발전 초기에는 학술적 벤치마크가 필수적이었으나, 모델이 복잡한 다중 턴(multi-turn) 워크플로우와 도구 활용 체인에 배치되는 현 상황에서는 그 한계가 뚜렷하다고 지적했습니다. 그는 “모델의 단일 역량(capability)을 넘어서, 실제 환경에서의 엔드투엔드(end-to-end) 신뢰성을 측정하는 ‘경험의 시대(Era of experience)’로 진입하고 있다”고 진단했습니다.

특히 그는 오픈AI가 개발한 ‘GDPval’ 벤치마크를 구체적인 사례로 제시했습니다. GDPval은 다양한 직업군에 걸쳐 경제적 가치가 있는 지식 노동 직무를 중심으로 구축된 평가 지표입니다. 그는 현실적인 과제 분포, 유연한 판별 기준, 회귀 추적 등을 결합하여, 단순히 그럴듯한 답변을 내놓는 것을 넘어 실제 업무 배치 시 모델이 어떻게 한계를 극복하고 목표를 달성하는지 측정하는 시스템 구축의 중요성을 역설했습니다.

이어진 Q&A 세션에서는 카이스트 학생들의 수준 높은 질문들이 쏟아지며 활발한 학술적 교류가 이루어졌습니다. 참석자들은 모델의 안전성과 자가 신뢰도 조정(Self-confidence calibration), 합성 데이터의 활용 한계, 그리고 실제 프로덕션 환경에서 발생하는 모델 배포 시의 간극 등에 대해 예리한 질문을 던졌으며, 미르자 아키텍트 역시 심도 있는 답변과 함께 실질적인 엔지니어링 조언을 아끼지 않았습니다.

국가 AI 연구거점은 앞으로도 글로벌 최고 수준의 AI 연구소 및 기업들과의 지속적인 교류를 통해, 국내 연구진들이 AI 기술의 최전선에서 활약할 수 있는 생태계 조성에 앞장설 계획입니다.

오픈AI 대니얼 미르자, 국가 AI 연구거점서 ‘AI 평가의 미래’ 제시

The Heart of AI Innovation in Korea

108, Taebong-ro, Seocho-gu, Seoul 06764, Republic of Korea

56 Yangjae-daero 12-gil, Seocho-gu, Seoul 06804, Republic of Korea

Tel. +82 2-577-5722

Explore

Legal