- 딥러닝 모델의 일반화(generalization) 현상이 기존 모델과 다르고 신비하다는 인식이 있음
-
과적합(overfitting), 더블 디센트(double descent), 과매개화(overparametrization) 등이 딥러닝의 특징으로 자주 언급됨
- 그러나 이러한 현상은 신경망에만 국한되지 않으며, PAC-Bayes와 가산 가능한 가설 경계 등 오래된 일반화 프레임워크로 설명 가능함
-
"소프트 유도 편향(soft inductive biases)" 이라는 개념이 이러한 일반화 현상을 설명하는 핵심 원리임
소프트 유도 편향(Soft Inductive Biases)
- 기존의 유도 편향은 일반화 성능 향상을 위해 가설 공간을 제한하는 방식임
- 소프트 유도 편향은 가설 공간의 유연성을 유지하면서 특정 해에 대해 선호도를 부여함
- CNN에서 파라미터 공유를 통해 지역성 및 평행 이동 불변성을 유지하는 것처럼, 특정 속성에 대해 부드러운 규제를 추가함
- 과매개화 모델에서도 일반화 성능이 좋은 이유는 소프트 유도 편향이 작용하기 때문임
일반화 프레임워크(Generalization Frameworks)
PAC-Bayes 및 가산 가능한 가설 경계
- PAC-Bayes는 일반화 리스크를 경험적 리스크와 모델의 압축성(compressibility)으로 설명함
- 큰 모델이라도 모델이 단순하고 압축 가능하면 좋은 일반화 성능이 보장됨
- 수식:
- 기대 리스크 ≤ 경험적 리스크 + 압축성 관련 항목
효과적 차원수(Effective Dimensionality)
- 효과적 차원수 = 모델의 손실 함수 헤시안(Hessian)의 고유값 중 큰 값의 수
- 효과적 차원수가 낮을수록 모델은 단순하고 일반화 성능이 좋음
기타 일반화 프레임워크
- 라데마허 복잡도(Rademacher complexity), VC 차원 등은 딥러닝 현상을 잘 설명하지 못함
- PAC-Bayes와 가산 가능한 가설 경계는 이러한 문제를 해결 가능
주요 현상
벤다인 오버피팅(Benign Overfitting)
- 모델이 노이즈까지 완벽하게 학습하면서도 일반화 성능이 좋은 현상
- 간단한 선형 모델로도 벤다인 오버피팅을 재현 가능
- PAC-Bayes 및 가산 가능한 가설 경계로 설명 가능
과매개화(Overparametrization)
- 파라미터 수가 데이터 수보다 많아도 모델의 일반화 성능이 우수함
- 큰 모델이 학습 후에 더 단순한 구조로 압축되기 때문에 일반화 성능이 좋음
더블 디센트(Double Descent)
- 모델의 복잡도가 증가할 때, 손실이 감소했다가 증가한 후 다시 감소하는 현상
- 선형 모델에서도 재현 가능
- 효과적 차원수와 모델의 압축성으로 설명 가능
대안적 관점(Alternative Views)
- 딥러닝의 일반화가 신비하다는 기존 관점은 제한된 일반화 프레임워크에 의존하기 때문임
- PAC-Bayes 및 가산 가능한 가설 경계를 통해 일반화 현상은 설명 가능함
- 딥러닝의 일반화가 신비하다는 인식은 잘못된 선입견일 수 있음
딥러닝의 독특한 요소(Distinctive Features of Deep Learning)
표현 학습(Representation Learning)
- 신경망은 데이터의 유사도를 학습하는 능력이 있음
- 고차원 데이터에서 유클리드 거리보다 더 나은 유사도 측정 가능
- 고차원에서의 내삽(interpolation) 및 외삽(extrapolation)에 유리함
보편 학습(Universal Learning)
- 딥러닝 모델은 다양한 도메인에서 일관되게 좋은 성능을 보임
- 전이 학습, 인컨텍스트 학습(in-context learning)에서 뛰어난 성능 발휘
모드 연결성(Mode Connectivity)
- 서로 다른 초기화에서 학습한 모델이 단순한 곡선을 따라 연결될 수 있음
- SWA(Stochastic Weight Averaging)와 같은 학습 기법에서 활용됨
결론 및 전망
- 벤다인 오버피팅, 과매개화, 더블 디센트는 신경망에만 국한된 현상이 아님
- PAC-Bayes 및 가산 가능한 가설 경계로 설명 가능함
- 딥러닝은 표현 학습, 보편 학습, 모드 연결성과 같은 특성에서 차별성이 있음
- 일반화 성능은 모델의 복잡성이 아니라 모델의 압축성과 단순성에서 기인함