딥러닝의 과학 이론은 등장할 것이다
1 day ago
3
- 딥러닝 학습 과정의 mechanics는 신경망 훈련을 파라미터, 데이터, 과제, 학습 규칙의 상호작용이 만드는 동역학으로 다루며, 통합된 과학적 이론의 형태로 자리 잡기 시작함
- 핵심 난제는 불투명성보다 복잡성에 있으며, 신경망은 비볼록·과매개변수화 구조와 구조화된 내부 표현 학습 때문에 기존의 고전 이론만으로는 충분히 설명되지 않음
- 해석 가능한 설정, 무한 너비·깊이 극한, 단순한 경험 법칙, 하이퍼파라미터 이론, 보편 현상 같은 축에서 반복적으로 규칙성이 드러나며 학습 mechanics의 기반이 쌓이고 있음
- deep linear network, NTK, mean-field와 lazy-rich 구분 같은 결과들은 학습 동역학, 일반화, feature learning, scaling law를 정량적으로 다룰 수 있게 만듦
- 이런 이론은 모델 설계와 최적화, 하이퍼파라미터 선택, AI safety와 mechanistic interpretability까지 더 예측 가능하고 통제 가능한 기반을 주는 데 중요함
서론
- 딥러닝은 매우 강력하지만, 내부 작동 원리를 통합적으로 설명하는 과학적 틀은 아직 부족함
- 신경망은 다양한 작업에서 초인간적 성능을 보이지만, 왜 그렇게 동작하는지와 어떻게 그런 성능이 나오는지에 대한 통합 이론은 부재함
- 실제 훈련 방식도 여전히 first principles보다 시행착오에 크게 의존하며, 이론은 일상적인 딥러닝 실무에서 역할이 제한적임
- 대규모 언어 모델과 diffusion model 시대로 오면서 미스터리는 더 깊어졌지만, 과학적 딥러닝 이론은 실제로 형성되기 시작했고 그 형태는 학습 과정의 mechanics에 가까움
- 딥러닝 이론의 초점은 시간에 따라 바뀌어 옴
- 초창기에는 모델이 어떤 함수를 표현할 수 있는지와 데이터를 통해 어떻게 학습하는지가 중심이었음
- 이후에는 유한 표본에서 언제 일반화되는지로 이동하며 classical learning theory, 계산학습이론, PAC 이론, 고전 최적화 이론이 발전함
- 동시에 단순 모델의 평균적 거동을 다루는 statistical physics of machine learning 전통도 함께 형성됨
- 다층 네트워크, backpropagation, 데이터와 계산 자원의 대규모화는 기존 이론의 한계를 드러내게 만듦
- 신경망은 비볼록, 과매개변수화된 구조를 가지며, 고전 이론이 잘 다루던 단순하고 볼록한 모델과 다름
- 낮은 학습 오차를 넘어서 구조화된 내부 표현을 학습하고, 과제와 스케일 전반에서 규칙성을 드러냄
- 이 변화로 딥러닝 이론은 무엇이 가능한지를 수학적으로 묻는 단계에서, 복잡한 경험적 시스템의 거동을 기술하고 예측하는 과학적 단계로 옮겨감
- 따라서 경험적 관찰을 포용하고, 통합 원리를 찾고, 반복적으로 나타나는 패턴을 식별하는 과학적 접근이 필요함
- 앞으로의 경로도 순수 수학 분야의 전개보다는 하나의 과학 분야가 성숙해 가는 과정에 더 가까울 것으로 봄
learning mechanics란 무엇인가
- 신경망 학습은 물체가 공간과 시간 속을 움직이는 mechanics와 유사하게 볼 수 있음
- 물체가 힘을 받아 물리 공간을 연속적으로 이동하듯, 모델은 이산적 업데이트를 통해 parameter space를 이동함
- 물리학에서 힘이 시스템 구성 요소 사이 상호작용에서 나오듯, 딥러닝에서도 파라미터, 데이터셋, 과제, 학습 규칙의 상호작용이 학습을 형성함
- 물리학의 장과 딥러닝의 gradient 사이에도 대응 관계가 있음
- 물리계가 내부 상호작용과 외부 제약으로 결정되는 potential의 국소 최소점에 정착하듯, 신경망도 아키텍처와 학습 데이터가 만드는 loss landscape의 국소 최소점으로 수렴함
- 이런 비유는 단순한 수사에 그치지 않고, 현재 진행 중인 연구 흐름과도 맞물림
- mechanics의 여러 분야가 해석 가능한 설정, 단순화된 극한, 요약 통계, 시스템 파라미터 분석, 보편 현상을 활용하듯 학습 mechanics도 같은 도구를 사용함
- 특히 많은 상호작용 요소를 다루는 continuum mechanics와 statistical mechanics처럼, 딥러닝도 개별 요소 하나하나보다 확대된 수준의 통계량을 설명하는 방식이 유용함
- 이 연구 프로그램은 learning mechanics라는 이름으로 묶을 수 있음
learning mechanics에 필요한 7가지 조건
-
근본성
- 신경망 훈련을 first principles에서 출발해 논리적으로 전개해야 함
- 중간 단계에서 가중치, 동역학, 성능에 관한 가정이 도구로 쓰일 수는 있지만, 최종적으로는 이 역시 first principles로 설명되어야 함
-
수학성
- 중요한 신경망 특성에 대해 모호하지 않은 정량적 진술을 만들어야 함
- 질적 서술만으로는 mechanics가 성립하지 않음
-
예측 가능성
- 간단하고 반복 가능한 경험적 측정으로 검증되는 주장을 해야 함
- 시스템에 대한 실험 통제가 매우 뛰어나므로, 주요 진전은 실험으로 명확하게 검증될 수 있어야 함
-
포괄성
- 훈련 과정, 내부 표현, 최종 가중치를 하나의 그림으로 연결해야 함
- 모든 세부를 담으려 하기보다, 세부를 일부 희생하더라도 통찰을 주는 적절한 해상도를 택해야 함
-
직관성
- 기술적 복잡성보다 단순하고 illuminating한 통찰을 우선해야 함
- 딥러닝의 신비를 걷어내는 데서 만족감을 주는 이론이어야 함
-
유용성
- 물리학이 다른 공학의 기초가 되듯, 응용 딥러닝의 과학적 기반이 되어야 함
- 하이퍼파라미터 튜닝 감소, dataset design 예측 도구, AI safety의 엄밀한 기반 같은 구체적 목표가 포함됨
-
겸손함
- 무엇을 잘 설명하는지와 무엇을 설명하지 못하는지를 분명히 해야 함
- 현실적인 딥러닝에 적용 가능한 mechanics도 작고 수작업으로 설계된 특수한 경우들에서는 깨질 수 있으며, 이는 관심 있는 영역에서 단순한 그림을 얻기 위한 대가로 봄
왜 learning mechanics가 중요한가
-
과학적 이유
- 대형 신경망의 공학적 성공은 아직 이해되지 않은 학습과 표현의 깊은 원리를 활용하고 있음을 시사함
- 기술이 이론보다 먼저 나온 선례로 steam engine과 thermodynamics, 비행기와 aerodynamic theory가 제시됨
- 인공 신경망의 학습 원리는 biological intelligence를 이해하는 데도 빛을 줄 수 있고, 이는 neuroscience와 cognitive science에 함의를 가질 수 있음
-
실용적 이유
- 성숙한 딥러닝 이론은 모델 설계, 최적화, 스케일링, 배치를 더 신뢰할 수 있는 원리로 이끌 수 있음
- 이미 일부 영역에서는 이론이 역할을 시작했음
- empirical scaling laws
- 하이퍼파라미터 스케일링의 수학적 처방
- 이론적 동기로 설계된 optimizer와 data attribution 방법
- 더 깊고 완전한 이론은 이런 지침을 더 많이 제공하고, 더 날카롭고 예측적으로 만들 수 있음
-
안전 관련 이유
- 점점 강력해지는 AI 시스템을 기술하고, 특성화하고, 통제하려면 관련 변수와 메커니즘, 조직 원리를 분명히 할 수 있어야 함
- 명확하게 기술할 수 없는 기술을 규제하기는 어려우며, fundamental theory는 reliability, oversight, control에 필요한 명료함을 줄 수 있음
- 특히 mechanistic interpretability를 지원하는 방식으로 AI safety에 기여할 가능성이 제기됨
학습 mechanics가 나타나고 있다는 증거
- 딥러닝의 핵심 구성 요소는 명시적이고 측정 가능함
- 아키텍처는 단순한 선형·비선형 변환의 합성으로 정의된 신경망 f(x; θ) 로 주어짐
- 데이터는 미지의 데이터 생성 분포에서 나온 표본 집합 D = {(xi, yi)} 로 주어짐
- 과제는 데이터셋 위 성능을 재는 목적함수 L(θ) 로 정의됨
- 학습 규칙은 예를 들어 θ(t+1) = θ(t) −η∇L(θ(t)) 같은 gradient 기반 업데이트와 초기화, 최적화 하이퍼파라미터로 기술됨
- 학습 과정에서 숨겨진 것은 거의 없음
- 많은 복잡계와 달리, 딥러닝은 동역학을 지배하는 equations of motion을 직접 노출함
- 모든 weight, activation, gradient, loss를 기록할 수 있고, 그로부터 임의의 통계량도 만들 수 있음
- 실험 설계, 재현, 검증이 쉬워 경험적 규칙성을 발견하고 이론 예측을 엄밀히 시험하기에 유리함
- 중심 난제는 불투명성이 아니라 복잡성에 있음
- architecture, data, task, learning rule의 상호작용이 비선형, 결합적, 고차원적 학습 동역학을 만듦
- 하이퍼파라미터 선택에 민감하며, 데이터 분포 자체도 단순하게 특징지어지기 어려움
- 그럼에도 이 복잡성 아래에는 규칙성이 숨어 있으며, 이를 뒷받침하는 다섯 가지 관찰이 제시됨
-
해석적으로 풀리는 설정
-
통찰을 주는 극한
-
단순한 경험 법칙
-
하이퍼파라미터 이론
해석적으로 풀리는 설정
- 복잡한 시스템에서는 단순화됐지만 대표성을 가진 설정에서 정량 계산이 가능할 때 과학적 이해가 빠르게 자람
- 물리학의 harmonic oscillator나 hydrogen atom처럼, 딥러닝에서도 최소 모델이 더 현실적인 시스템을 볼 때의 직관을 제공함
- 딥러닝은 특히 이 접근에 잘 맞으며, 학습 동역학이 단순화되고 핵심 양을 계산 가능한 설정이 다수 발견됨
-
데이터에 대한 선형화
- deep linear network는 비선형성을 제거해 입력 x에 대해서는 선형이지만 파라미터 θ에 대해서는 여전히 고도로 비선형인 모델이 됨
- 이런 모델은 단순해 보여도 딥러닝의 특징적 행동을 유지함
- saddle-point-dominated loss landscape
- 뚜렷한 phase transition과 분리된 시간척도를 가진 동역학
- gradient descent에서의 edge-of-stability oscillation
- 초기화에 크게 의존하는 inductive bias
- 분석은 보통 gradient descent의 연속시간 극한인 gradient flow 아래에서 수행되며, 데이터 분포와 초기화에 단순화 가정을 두면 정확한 해 또는 저차원 동역학계로 환원됨
- 반복적으로 드러나는 핵심은 greedy low-rank bias임
- 학습은 과제의 일부 성분을 다른 성분보다 먼저 획득함
- [Saxe et al. 2014]의 결과에서는 입력-출력 상관의 singular vector를 순차적으로 학습하고, singular value가 큰 모드가 먼저 학습됨
- 이 편향은 signal과 noise를 분리해 일반화에 도움을 줄 수 있다고 연결됨
- 비선형 네트워크에서도 단순한 함수가 복잡한 함수보다 먼저 학습되는 현상과 닮아 있음
- 작은 초기화, 더 깊은 깊이, 더 강한 mini-batch noise, 명시적 ℓ2 regularization은 이 greedy bias를 더 강화하는 것으로 정리됨
-
파라미터에 대한 선형화
- linearized network는 초기 파라미터 근처 Taylor 전개에서 비선형 항을 잘라내어 얻으며, 데이터 x에는 비선형이지만 파라미터 θ에는 선형이 됨
- 특정 설정에서는 전체 훈련 동안 원래 모델이 이 선형화로 잘 근사되며, 이 경우 학습 동역학은 사실상 선형 회귀와 동일해짐
- 차이는 Gram kernel 대신 neural tangent kernel, NTK가 동역학을 지배한다는 점임
- least squares와 작은 step size의 gradient descent에서는 최종 예측기가 NTK를 이용한 kernel ridge regression으로 주어져 해석 가능성이 높아짐
- 이 설정은 아키텍처가 NTK 구조를 통해 inductive bias를 어떻게 결정하는지 드러냄
- 입력 데이터 구조까지 고려하면 임의의 타깃 함수에 대한 예상 일반화 오차도 예측할 수 있으며, Figure 1의 결과도 이런 예측과 실험이 잘 맞음을 보여줌
- 또한 double descent와 scaling laws도 포착할 수 있음
- 다만 현실성과 한계도 분명함
- generic neural network의 강한 feature learning을 포착하지 못함
- 표본 복잡도에 대해 지나치게 비관적인 예측을 만들 수 있음
- 학습을 선형 문제로 바꾸면서 딥러닝 특유의 비볼록 최적화 현상을 우회해 버림
-
선형화를 넘어서
- 이론의 중요한 전선은 데이터와 파라미터 모두에 대해 진짜로 비선형인 toy model을 해석 가능하게 만드는 데 있음
- 여기서는 데이터 분포의 영향이 훨씬 복잡해지므로 하나의 통합 틀을 세우기 어렵지만, 여러 방향에서 진전이 나타남
- Gaussian 입력과 구조화된 타깃을 가지는 single-index, multi-index model 계열에서는 fully nonlinear neural network가 kernel method보다 적은 샘플로 더 잘 동작함
- 타깃 함수의 구조를 활용해 relevant feature를 학습하기 때문임
- statistical physics 방법은 이런 모델에서 Bayes-optimal inference와 학습 동역학의 정확한 점근 거동도 계산하게 함
- quadratic activation을 가진 2층 신경망에서는 정확한 점근, 훈련 동역학, scaling laws까지 특성화됨
- 그 밖에도 여러 비선형 현상이 분리되어 분석됨
- logistic loss로 학습한 homogeneous network가 max-margin solution으로 수렴하는 현상
- teacher-student model에서 훈련 동역학이 저차원 요약 통계로 환원되는 현상
- associative memory model의 memorization
- modular arithmetic task에서 학습되는 알고리듬적 구조
- attention의 비선형 해석 가능 모델
- 비선형 feature learning이 더 나은 scaling law를 만드는 경우
- 현재 비선형 toy model들은 각각 완전 비선형 학습의 일부 단면을 포착하지만, 아직 통합 프레임워크는 나타나지 않음
통찰을 주는 극한
- 현대 딥러닝 시스템은 수백억 개 이상의 파라미터와 방대한 데이터로 구성되어, 개별 파라미터를 추적하는 미시 이론은 거의 불가능해 보임
- 하지만 복잡계는 종종 크기를 사실상 무한대로 보내는 극한에서 단순화되고, 이 단순 구조가 실제 유한 시스템에도 유익한 통찰을 줌
- 이상기체 법칙이 무한 입자 수 극한에서 유도되지만 실제 유한 기체에도 잘 맞는 것과 같은 논리임
- 딥러닝에서도 극한은 복잡성을 다루는 핵심 수학 도구이며, 그 반복적 성공 자체가 emerging theory의 강한 증거로 제시됨
-
무한 너비 극한과 lazy-rich 이분법
- hidden layer의 뉴런 수를 무한대로 보내면, 개별 뉴런보다 전체 뉴런 집단의 분포 진화만 보면 되는 mean-field behavior가 나타남
- 다만 깊은 층의 activation 발산을 막기 위해 너비가 커질수록 초기화 스케일을 줄여야 하며, 이 감소율에 따라 서로 다른 두 종류의 한계 동역학이 나타남
-
lazy 또는 kernel 또는 linearized regime
- 초기화에서 각 파라미터 크기를 [width]−1/2로 줄이면 hidden neuron 입력이 사라지거나 폭주하지 않음
- 이런 네트워크를 훈련하면 weight와 hidden representation은 거의 바뀌지 않지만, 그 작은 변화가 누적되어 출력 함수는 크게 변함
- 결과적으로 학습 동역학은 파라미터에 대해 선형이며, 출력 함수 진화는 전적으로 NTK로 표현됨
- 해석 가능성은 높지만 hidden representation이 거의 변하지 않아 feature learning을 보이지 않음
- 이 한계는 이후 lazy라는 이름으로 정리됨
-
rich 또는 active 또는 feature-learning regime
- 마지막 층 가중치를 [width]−1로 더 강하게 축소하면, 모델이 학습 중 더 많이 변해야 하므로 feature learning이 가능한 다른 극한이 생김
- 이 경우 초기 출력은 무한 너비에서 0이 되지만, 훈련 중에는 각 gradient step마다 order-one 수준으로 의미 있게 성장할 수 있음
- shallow mean-field network에서 시작된 이 아이디어는 arbitrary depth의 네트워크로 확장됐고, 관련 스케일링은 Maximal Update Parameterization, µP와 연결됨
- 이제는 infinite-width network도 feature를 학습할 수 있다는 점이 널리 받아들여짐
-
rich regime에서 나타나는 행동
- hidden feature가 시간에 따라 변하고 입력 데이터 구조에 적응함
- 내부 표현의 geometry가 훈련 중 바뀜
- 뉴런의 부분집단이 서로 다른 잠재 feature에 특화됨
- 최적 예측이 고차원 데이터의 저차원 부분공간에 있을 때, 첫 층 가중치 분포가 그 관심 부분공간을 증폭하는 방향으로 진화함
- 초기화 스케일을 더 작게 만들면 앞서 언급한 greedy low-rank bias가 자주 다시 나타남
-
유한 너비에서도 나타나는 lazy-rich 전이
- 출력 스케일을 낮추면 feature learning이 촉진되어 rich regime 쪽으로 이동함
- 출력 스케일을 높이면 훈련 동역학이 더 선형화되어 lazy behavior가 나타남
- 같은 유한 네트워크도 출력 스케일에 따라 lazy 또는 rich 학습을 보일 수 있으며, Figure 2가 이 차이를 시각화함
-
무한 깊이 극한과 다른 하이퍼파라미터 극한
- deep residual network에서는 각 층 기여를 적절히 줄이면 안정적인 infinite depth limit에 도달할 수 있음
- 각 층을 [depth]−1로 억제하면 residual stream이 깊이에 따라 매끄럽게 변하는 극한이 나오며, 이는 Neural ODE를 떠올리게 함
- 각 층을 [depth]−1/2로 억제하면 residual stream이 마치 확률미분방정식에 의해 구동되는 것처럼 확산하는 극한이 나옴
- 이 두 극한은 transformer 같은 현실적 아키텍처에서 질적으로 다른 해로 수렴하며, 어느 쪽이 더 중요한지는 아직 분명하지 않음
-
다른 크기 극한
- recurrent architecture는 feedforward layer 수 대신 recurrent 구조의 무한 극한을 분석할 수 있음
- 최신 transformer에는 multi-head self-attention과 mixture-of-expert MLP 같은 더 표현력 있는 블록이 들어감
- attention은 head count, head size, context length라는 여러 스케일 방향을 가짐
- mixture-of-expert는 expert count, expert size, sparsity라는 여러 스케일 방향을 가짐
- 이런 서로 다른 무한 극한의 상호작용을 분명히 하는 일은 현대 실무와 접점을 만들고, 초기화 및 최적화 관련 하이퍼파라미터를 분리해 이해하는 데 중요함
표와 그림에서 드러나는 요약
- Table 1은 딥러닝의 핵심 연구 도구가 물리학의 도구와 밀접하게 닮았음을 정리함
- solvable settings는 deep linear network, kernel regression, multi-index model과 대응되고, 물리학에서는 harmonic oscillator, hydrogen atom, Ising model과 대응됨
- simplifying limits는 lazy vs rich learning, width와 depth의 무한 극한, small initialization과 연결되며, 물리학에서는 thermodynamic limit, classical limit, hydrodynamic limit와 나란히 놓임
- simple empirical laws는 neural scaling laws, edge of stability, neural feature ansatz로 나타나고, 물리학의 Kepler, Snell, Boyle, Hooke, Newton, Faraday, Ohm, Poiseuille, Planck, Hubble 같은 법칙들과 병치됨
- system parameters 연구는 step size를 sharpness regularization으로 보는 관점, µP와 width scaling과 연결되고, 물리학의 scaling analysis, nondimensionalization, chaotic vs ordered regime과 유사하게 정리됨
- universal phenomena는 모델 전반에 공통으로 나타나는 inductive bias와 representation으로 나타나며, 물리학의 critical phenomena, renormalization group flow와 대응됨
- Figure 1은 선형화가 정확한 해를 제공하고 실험과 잘 맞는다는 점을 강조함
- deep linear network에서는 task-aligned initialization과 whitened input 아래에서 singular mode가 순차적으로 학습됨
- nonlinear network를 초기화점에서 Taylor 전개로 선형화하면 NTK를 통한 kernel ridge regression으로 환원되고, 테스트 성능 예측이 CIFAR-5m의 여러 이진 분류 과제에서 실험과 가깝게 맞음
- Figure 2는 큰 출력 배율과 작은 출력 배율만으로도 lazy와 rich 훈련 동역학을 유도할 수 있음을 보여줌
- 같은 shallow student network에서도 α = 0.1일 때는 student weight가 크게 움직이며 teacher feature 방향 주변으로 모여 rich dynamics를 보임
- α = 30일 때는 loss는 떨어지지만 student weight는 거의 움직이지 않아 lazy dynamics를 보임
-
Homepage
-
Tech blog
- 딥러닝의 과학 이론은 등장할 것이다