[Research Highlight] 이병준 고려대 인공지능학과 교수

배우면서 더 잘 배우는 법도
같이 배우기

‘False-Negative Aware Learning of Contrastive Negatives (FALCON)’라는 새로운 학습 구조를 제안한 이병준 고려대 교수(가운데)와 학생들.

전 세계적인 컴퓨팅 부족, 이제 핵심은 ‘학습 효율성’이다

뉴럴 스케일링 법칙은 AI 시스템의 성능이 훈련 데이터, 모델 매개변수, 컴퓨팅 자원이 증가함에 따라 예측 가능하게 향상되는 현상을 말한다. 이 법칙에 따라 글로벌 AI 리더들은 AI 투자에 총력을 다하고 있지만, GPU, 메모리, 에너지 등 인프라 전반에서 병목이 발생하고 있어 갈수록 스케일 중심 경쟁보다는 효율성 중심으로의 전환이 강조되고 있다.

이러한 측면에서, 우리는 지금까지 모종의 관행이라고 생각되었던, 그저 해왔던 그대로 AI 학습 루틴들을 하나하나 점검하고 의구심을 가져볼 필요가 있다. 돌다리도 하나씩 두드려보고 개선하는 와중에서 큰 효율성 개선이 올지 모르니 말이다.

이 음성(negative) 샘플이 진짜 음성 샘플인가?

시각 언어 사전학습(VLP)는 이미지-텍스트 검색, 시각 질문 응답, 시각 추론 등 다양한 태스크에서 높은 성과를 보여주고 있다. VLP의 핵심 아이디어는 양성(positive) 텍스트-이미지 쌍과 음성(negative) 텍스트-이미지 쌍을 준비해서 이를 대조하며 학습(contrastive learning)해 나가는 것이다. 하지만 이미지와 텍스트의 다대다 대응으로 인해, 실제 음성 쌍을 정확히 구별해내는 것은 그다지 자명하지 않다.

학습의 효율성을 위해서는 최대한 양성에 가까운 음성 쌍(hard negative)을 학습에 사용해야 하는데, 대부분의 기존 VLP 모델에서는 이렇게 하다 실제로는 양성 쌍인 샘플을 음성으로 잘못 취급하는 거짓 음성 쌍(false negative)이 생겨나는 일이 빈번하다. 이는 학습되는 텍스트-이미지 대응의 질을 저하시킨다. 게다가 현재 학습이 초기·중기·후기 중 어떤 단계에 있는지, 그리고 얼마나 복잡한 이미지와 텍스트 쌍을 고려하고 있는지에 따라 거짓 음성 쌍을 골라낼 수 있는 텍스트-이미지 유사도 임계치는 천차만별이기에 이 문제를 더욱 어렵게 만든다.


고려대 의사결정연구실을 이끌고 있는 이병준 교수가 연구원들과 함께했다.

FALCON: 음성 쌍 구분법을 배우면서 VLP 하기

지속적으로 변화하는 학습 과정 중, 거짓 음성 쌍(false negative)을 고르지 않으면서 최대한 어려운 음성 쌍(hard negative)을 정확하게 골라내는 것이 결국 VLP 성능의 핵심이다. 이에 착안한 고려대 연구팀은 ‘False-Negative Aware Learning of Contrastive Negatives (FALCON)’라는 새로운 학습 구조를 제안했다.

FALCON의 핵심은 ‘학습 배치 구성 시 음성 쌍의 난이도를 학습 기반으로 조절하는 것’이다. 음성 쌍의 난도를 너무 높게 잡으면 거짓 음성 쌍이 너무 많이 나올 수 있고, 너무 낮게 잡으면 학습에 도움이 되지 않는다. 그러나 적절한 음성 쌍의 난이도는 학습 과정에 따라, 그리고 기준점에 따라 계속해서 변화한다. 따라서 필요한 음성 쌍의 난이도를 매 경우마다 정확하게 정하는 건 불가능하지만, 대신 기준점에 따라 필요한 음성 쌍의 난이도를 결정하는 스케줄러를 두고, 해당 스케줄러의 각 결정에 따라 VLP의 손실함수가 어떻게 변화하는지를 관측하며 스케줄러를 VLP와 동시에 학습시키는 방식이다. 최종적으로 VLP 학습에 도움이 되는 방향으로 음성 쌍을 골라낼 수 있게 해 주는 것이다.

스케줄러 학습의 효율성도 중요하다. 빠르게 스케줄러 학습이 완료되어야 VLP 학습의 효율성을 변화하는 학습 과정에 따라 맞춤으로 끌어올릴 수 있다. 연구팀은 이에 대한 해법으로 다양한 음성 쌍 후보들과 기준점 사이의 유사도 분포만을 스케줄러 입력으로 받는 가벼운 스케줄러를 고안했다.


학습된 FALCON이 골라내는 음성 쌍의 예시. 왼쪽은 이미지 기준점에서 텍스트를 골라내는 예시이고, 오른쪽은 텍스트 기준점에서 이미지를 골라내는 예시이다. 각 기준점마다 최적의 어려운 음성 쌍에 해당하는 유사도는 매우 다르지만, 스케줄러가 정확하게 최적의 어려운 음성 쌍을 골라내는 것을 확인할 수 있다.

단순히 개선된 음성 쌍 샘플링을 넘어서

본 연구에서는 VLP에서 더욱 개선된 음성 쌍을 얻어내어 학습 효율성을 올리는 방향으로 시연되었지만, ‘학습에서의 최종 손실함수의 개선 폭을 보고 업데이트되는 스케줄러의 도입’이라는 프레임워크는 현 도메인에 국한되는 구조가 아니다. 기계학습의 도메인과 각 도메인에서의 학습 알고리즘은 매우 다양하고 관행처럼 굳어 내려오는 학습 테크닉은 매우 많다. 딥러닝에서 조절해야 하는 알고리즘 하이퍼파라미터가 매우 많다 보니 기존 성공적이었던 예시들에서 많은 부분을 그대로 가져오는 경우가 많고, FALCON은 이를 효율화할 수 있음을 보여주는 하나의 예시에 불과하다. 뉴럴 스케일링 법칙을 극복하기 위해, 또 어떤 도메인에 어떤 개선점을 찾을 수 있을지, 본 고려대 연구진은 지금도 열심히 연구 중이다.

The Heart of AI Innovation in Korea

108, Taebong-ro, Seocho-gu, Seoul 06764, Republic of Korea

Tel. +82 2-958-0746

© National AI Research Lab 2024. All rights reserved.

If you have any problems with the website or need technical support, please contact inquiry@dvn.ci