AI 모델, 무조건 많이 학습시키는 게 능사일까? 과도한 사전 학습의 위험성 경고
최근 AI 개발 분야에서는 더 많은 데이터를 학습시킬수록 모델 성능이 향상된다는 것이 일반적인 믿음으로 자리 잡았습니다. 하지만 카네기 멜론, 스탠포드, 하버드, 프린스턴 등 미국의 명문 대학 연구진들이 이 믿음에 정면으로 도전하는 연구 결과를 발표하여 주목받고 있습니다. 과연 AI 모델 학습, 무조건 많이 시키는 게 좋을까요?
"재앙적 과잉 훈련" 현상: 과도한 사전 학습의 역효과
HPCwire의 보도에 따르면, 연구진은 "재앙적 과잉 훈련 (catastrophic overtraining)"이라는 개념을 제시하며, 과도한 사전 학습이 오히려 모델의 미세 조정 (fine-tuning) 후 성능을 저해할 수 있다고 경고했습니다. 이는 마치 "나비 효과"와 유사하게, 작은 변화가 예측 불가능한 결과를 초래하는 것과 같은 맥락입니다.
OLMo-1B 모델 실험: 학습량 증가에도 성능 저하 발생
연구진은 OLMo-1B 모델의 두 가지 버전을 비교했습니다. 하나는 2조 3천억 개의 토큰으로 학습되었고, 다른 하나는 3조 개의 토큰으로 학습되었습니다. 놀랍게도 더 많은 데이터로 학습된 모델이 AlpacaEval 및 ARC와 같은 벤치마크에서 최대 3%까지 낮은 성능을 보였습니다. 이는 사전 학습량이 많다고 해서 항상 더 나은 성능을 보장하는 것은 아니라는 점을 시사합니다.
"점진적 민감도" 현상: 모델의 취약성 증가
연구진은 이러한 성능 저하의 원인을 "점진적 민감도 (progressive sensitivity)" 현상에서 찾았습니다. 토큰 수가 증가함에 따라 모델이 더욱 취약해지고, 미세 조정 과정에서의 작은 조정이나 노이즈의 유입과 같은 미세한 변화에도 이전의 학습 효과가 상쇄될 수 있다는 것입니다. 연구진은 가우시안 노이즈를 사전 학습된 모델에 주입하여 실험한 결과, 학습 기간이 길수록 성능 저하가 더욱 심각하게 나타나는 것을 확인했습니다.
"변곡점 (inflection point)": 적정 학습량의 중요성
추가적인 학습이 오히려 성능 저하를 유발하기 시작하는 지점을 "변곡점 (inflection point)"이라고 합니다. 이 지점을 지나면 학습의 이점보다 내부 불안정성의 위험이 커지게 됩니다. 연구 결과에 따르면, OLMo-1B와 같은 소규모 모델에서는 2조 5천억 개 이상의 토큰으로 학습했을 때 이러한 변곡점이 나타나는 경우가 많았습니다.
사전 학습과 미세 조정의 조화: 전체 훈련 과정 고려 필요
연구진은 논문에서 "재앙적 과잉 훈련은 특히 사전 학습과 미세 조정 작업이 제대로 정렬되지 않았을 때 불가피하게 발생할 수 있다"고 경고합니다. 사전 학습을 중단해야 한다는 의미는 아니지만, 개발자들은 적절한 사전 학습량을 신중하게 고려해야 한다고 강조합니다. 결론적으로, "우리의 연구 결과는 전체 훈련 파이프라인을 고려하는 모델 확장에 대한 새로운 집중을 요구한다"고 밝혔습니다.
맺음말
AI 모델 개발에 있어서 무조건 많은 데이터를 학습시키는 것이 능사가 아니라는 연구 결과는 시사하는 바가 큽니다. 적절한 사전 학습량과 더불어 미세 조정과의 조화, 그리고 전체 훈련 과정을 균형 있게 고려하는 것이 중요합니다. 앞으로 AI 개발자들은 ‘양’보다는 ‘질’에 집중하여 모델의 성능을 최적화하는 데 더욱 힘써야 할 것입니다.