세미나

벤치마크를 넘어 경험으로 : 프런티어 AI 시스템의 엔지니어링과 평가

2026년 3월 20일 · 대니얼 미르자 · 오픈AI

대니얼 미르자 OpenAI 솔루션 아키텍트가 3월 17일 석학초청강연에서 프런티어 AI 시스템의 실전 평가 방법론을 설명하고 있다. (사진=국가AI연구거점)

AI 모델이 연구실을 넘어 실제 산업 현장과 일상으로 빠르게 확산되는 가운데, 글로벌 프런티어 AI 연구·배포 기업 OpenAI가 기존의 단편적인 벤치마크 평가를 넘어서는 새로운 시스템 평가 기준이 필요하다는 인사이트를 공유했습니다.

국가AI연구거점(NAIRL)과 KAIST 김재철AI대학원은 3월 17일 서울AI허브에서 석학초청강연을 공동 개최했습니다. 이번 강연에는 대니얼 미르자 OpenAI 솔루션 아키텍트가 연사로 나서 ‘벤치마크에서 경험으로: 프런티어 AI 시스템의 엔지니어링과 평가(From Benchmarks to Experience: Engineering and Evaluating Frontier AI Systems)’를 주제로 발표했습니다.

프런티어 AI 기술에 대한 높은 관심을 반영하듯 이날 행사에는 약 300명이 참여했습니다. KAIST 학생과 연구자 120명이 현장에서 참석했고, 파트너 기관 연구자·임원 60명을 포함한 180명이 온라인으로 함께하며 강연의 열기를 더했습니다.

석학초청강연에서 참석자들이 대니얼 미르자의 강연을 경청하고 있다. (사진=국가AI연구거점)

미르자는 학술 벤치마크가 AI 발전 초기에는 필수적인 역할을 했지만, 모델이 복잡한 멀티턴 워크플로우와 툴 연동 체인 속에 배포되는 오늘날에는 그 한계가 점점 뚜렷해지고 있다고 지적했습니다. 그는 “모델의 단독 성능을 넘어, 실제 환경에서의 종단간(end-to-end) 신뢰성을 측정하는 ‘경험의 시대(Era of Experience)’에 진입하고 있다”고 말했습니다.

특히 미르자는 OpenAI의 ‘GDPval’ 벤치마크를 구체적 사례로 제시했습니다. GDPval은 다양한 직종에 걸쳐 경제적으로 가치 있는 지식 노동 과업을 중심으로 설계된 평가 지표입니다. 그는 현실적인 과업 분포, 강건한 판정 기준, 회귀 추적을 결합해, 그럴듯한 답변을 내놓는 데 그치지 않고 모델이 실제 프로덕션 환경에서 목표를 어떻게 달성하는지를 측정하는 시스템을 구축하는 것이 중요하다고 강조했습니다.

발표에 이어진 질의응답 시간에는 KAIST 학생들의 수준 높은 질문이 이어지며 활발한 토론이 펼쳐졌습니다. 참석자들은 모델 안전성, 자기 확신 보정, 합성 데이터의 한계, 실제 프로덕션 환경에서 발생하는 배포 격차 등에 관해 날카로운 질문을 던졌고, 미르자는 깊이 있는 답변과 함께 아낌없는 엔지니어링 조언을 나눴습니다.

국가AI연구거점은 앞으로도 세계 최고 수준의 AI 연구소·기업과의 지속적인 교류를 통해 국내 연구자들이 AI 기술의 최전선에서 성장할 수 있는 생태계 조성을 이끌어 나갈 계획입니다.