딥러닝의 과학 이론은 등장할 것이다

1 day ago 3

딥러닝 학습 과정의 mechanics는 신경망 훈련을 파라미터, 데이터, 과제, 학습 규칙의 상호작용이 만드는 동역학으로 다루며, 통합된 과학적 이론의 형태로 자리 잡기 시작함
핵심 난제는 불투명성보다 복잡성에 있으며, 신경망은 비볼록·과매개변수화 구조와 구조화된 내부 표현 학습 때문에 기존의 고전 이론만으로는 충분히 설명되지 않음
해석 가능한 설정, 무한 너비·깊이 극한, 단순한 경험 법칙, 하이퍼파라미터 이론, 보편 현상 같은 축에서 반복적으로 규칙성이 드러나며 학습 mechanics의 기반이 쌓이고 있음
deep linear network, NTK, mean-field와 lazy-rich 구분 같은 결과들은 학습 동역학, 일반화, feature learning, scaling law를 정량적으로 다룰 수 있게 만듦
이런 이론은 모델 설계와 최적화, 하이퍼파라미터 선택, AI safety와 mechanistic interpretability까지 더 예측 가능하고 통제 가능한 기반을 주는 데 중요함

서론

딥러닝은 매우 강력하지만, 내부 작동 원리를 통합적으로 설명하는 과학적 틀은 아직 부족함
- 신경망은 다양한 작업에서 초인간적 성능을 보이지만, 왜 그렇게 동작하는지와 어떻게 그런 성능이 나오는지에 대한 통합 이론은 부재함
- 실제 훈련 방식도 여전히 first principles보다 시행착오에 크게 의존하며, 이론은 일상적인 딥러닝 실무에서 역할이 제한적임
대규모 언어 모델과 diffusion model 시대로 오면서 미스터리는 더 깊어졌지만, 과학적 딥러닝 이론은 실제로 형성되기 시작했고 그 형태는 학습 과정의 mechanics에 가까움
딥러닝 이론의 초점은 시간에 따라 바뀌어 옴
- 초창기에는 모델이 어떤 함수를 표현할 수 있는지와 데이터를 통해 어떻게 학습하는지가 중심이었음
- 이후에는 유한 표본에서 언제 일반화되는지로 이동하며 classical learning theory, 계산학습이론, PAC 이론, 고전 최적화 이론이 발전함
- 동시에 단순 모델의 평균적 거동을 다루는 statistical physics of machine learning 전통도 함께 형성됨
다층 네트워크, backpropagation, 데이터와 계산 자원의 대규모화는 기존 이론의 한계를 드러내게 만듦
- 신경망은 비볼록, 과매개변수화된 구조를 가지며, 고전 이론이 잘 다루던 단순하고 볼록한 모델과 다름
- 낮은 학습 오차를 넘어서 구조화된 내부 표현을 학습하고, 과제와 스케일 전반에서 규칙성을 드러냄
이 변화로 딥러닝 이론은 무엇이 가능한지를 수학적으로 묻는 단계에서, 복잡한 경험적 시스템의 거동을 기술하고 예측하는 과학적 단계로 옮겨감
- 따라서 경험적 관찰을 포용하고, 통합 원리를 찾고, 반복적으로 나타나는 패턴을 식별하는 과학적 접근이 필요함
- 앞으로의 경로도 순수 수학 분야의 전개보다는 하나의 과학 분야가 성숙해 가는 과정에 더 가까울 것으로 봄

learning mechanics란 무엇인가

신경망 학습은 물체가 공간과 시간 속을 움직이는 mechanics와 유사하게 볼 수 있음
- 물체가 힘을 받아 물리 공간을 연속적으로 이동하듯, 모델은 이산적 업데이트를 통해 parameter space를 이동함
- 물리학에서 힘이 시스템 구성 요소 사이 상호작용에서 나오듯, 딥러닝에서도 파라미터, 데이터셋, 과제, 학습 규칙의 상호작용이 학습을 형성함
물리학의 장과 딥러닝의 gradient 사이에도 대응 관계가 있음
- 물리계가 내부 상호작용과 외부 제약으로 결정되는 potential의 국소 최소점에 정착하듯, 신경망도 아키텍처와 학습 데이터가 만드는 loss landscape의 국소 최소점으로 수렴함
이런 비유는 단순한 수사에 그치지 않고, 현재 진행 중인 연구 흐름과도 맞물림
- mechanics의 여러 분야가 해석 가능한 설정, 단순화된 극한, 요약 통계, 시스템 파라미터 분석, 보편 현상을 활용하듯 학습 mechanics도 같은 도구를 사용함
- 특히 많은 상호작용 요소를 다루는 continuum mechanics와 statistical mechanics처럼, 딥러닝도 개별 요소 하나하나보다 확대된 수준의 통계량을 설명하는 방식이 유용함
이 연구 프로그램은 learning mechanics라는 이름으로 묶을 수 있음

learning mechanics에 필요한 7가지 조건

근본성
- 신경망 훈련을 first principles에서 출발해 논리적으로 전개해야 함
- 중간 단계에서 가중치, 동역학, 성능에 관한 가정이 도구로 쓰일 수는 있지만, 최종적으로는 이 역시 first principles로 설명되어야 함
수학성
- 중요한 신경망 특성에 대해 모호하지 않은 정량적 진술을 만들어야 함
- 질적 서술만으로는 mechanics가 성립하지 않음
예측 가능성
- 간단하고 반복 가능한 경험적 측정으로 검증되는 주장을 해야 함
- 시스템에 대한 실험 통제가 매우 뛰어나므로, 주요 진전은 실험으로 명확하게 검증될 수 있어야 함
포괄성
- 훈련 과정, 내부 표현, 최종 가중치를 하나의 그림으로 연결해야 함
- 모든 세부를 담으려 하기보다, 세부를 일부 희생하더라도 통찰을 주는 적절한 해상도를 택해야 함
직관성
- 기술적 복잡성보다 단순하고 illuminating한 통찰을 우선해야 함
- 딥러닝의 신비를 걷어내는 데서 만족감을 주는 이론이어야 함
유용성
- 물리학이 다른 공학의 기초가 되듯, 응용 딥러닝의 과학적 기반이 되어야 함
- 하이퍼파라미터 튜닝 감소, dataset design 예측 도구, AI safety의 엄밀한 기반 같은 구체적 목표가 포함됨
겸손함
- 무엇을 잘 설명하는지와 무엇을 설명하지 못하는지를 분명히 해야 함
- 현실적인 딥러닝에 적용 가능한 mechanics도 작고 수작업으로 설계된 특수한 경우들에서는 깨질 수 있으며, 이는 관심 있는 영역에서 단순한 그림을 얻기 위한 대가로 봄

왜 learning mechanics가 중요한가

과학적 이유
- 대형 신경망의 공학적 성공은 아직 이해되지 않은 학습과 표현의 깊은 원리를 활용하고 있음을 시사함
- 기술이 이론보다 먼저 나온 선례로 steam engine과 thermodynamics, 비행기와 aerodynamic theory가 제시됨
- 인공 신경망의 학습 원리는 biological intelligence를 이해하는 데도 빛을 줄 수 있고, 이는 neuroscience와 cognitive science에 함의를 가질 수 있음
실용적 이유
- 성숙한 딥러닝 이론은 모델 설계, 최적화, 스케일링, 배치를 더 신뢰할 수 있는 원리로 이끌 수 있음
- 이미 일부 영역에서는 이론이 역할을 시작했음
  - empirical scaling laws
  - 하이퍼파라미터 스케일링의 수학적 처방
  - 이론적 동기로 설계된 optimizer와 data attribution 방법
- 더 깊고 완전한 이론은 이런 지침을 더 많이 제공하고, 더 날카롭고 예측적으로 만들 수 있음
안전 관련 이유
- 점점 강력해지는 AI 시스템을 기술하고, 특성화하고, 통제하려면 관련 변수와 메커니즘, 조직 원리를 분명히 할 수 있어야 함
- 명확하게 기술할 수 없는 기술을 규제하기는 어려우며, fundamental theory는 reliability, oversight, control에 필요한 명료함을 줄 수 있음
- 특히 mechanistic interpretability를 지원하는 방식으로 AI safety에 기여할 가능성이 제기됨

학습 mechanics가 나타나고 있다는 증거

딥러닝의 핵심 구성 요소는 명시적이고 측정 가능함
- 아키텍처는 단순한 선형·비선형 변환의 합성으로 정의된 신경망 f(x; θ) 로 주어짐
- 데이터는 미지의 데이터 생성 분포에서 나온 표본 집합 D = {(xi, yi)} 로 주어짐
- 과제는 데이터셋 위 성능을 재는 목적함수 L(θ) 로 정의됨
- 학습 규칙은 예를 들어 θ(t+1) = θ(t) −η∇L(θ(t)) 같은 gradient 기반 업데이트와 초기화, 최적화 하이퍼파라미터로 기술됨
학습 과정에서 숨겨진 것은 거의 없음
- 많은 복잡계와 달리, 딥러닝은 동역학을 지배하는 equations of motion을 직접 노출함
- 모든 weight, activation, gradient, loss를 기록할 수 있고, 그로부터 임의의 통계량도 만들 수 있음
- 실험 설계, 재현, 검증이 쉬워 경험적 규칙성을 발견하고 이론 예측을 엄밀히 시험하기에 유리함
중심 난제는 불투명성이 아니라 복잡성에 있음
- architecture, data, task, learning rule의 상호작용이 비선형, 결합적, 고차원적 학습 동역학을 만듦
- 하이퍼파라미터 선택에 민감하며, 데이터 분포 자체도 단순하게 특징지어지기 어려움
그럼에도 이 복잡성 아래에는 규칙성이 숨어 있으며, 이를 뒷받침하는 다섯 가지 관찰이 제시됨
- 해석적으로 풀리는 설정
- 통찰을 주는 극한
- 단순한 경험 법칙
- 하이퍼파라미터 이론
  - 보편적 현상

해석적으로 풀리는 설정

복잡한 시스템에서는 단순화됐지만 대표성을 가진 설정에서 정량 계산이 가능할 때 과학적 이해가 빠르게 자람
- 물리학의 harmonic oscillator나 hydrogen atom처럼, 딥러닝에서도 최소 모델이 더 현실적인 시스템을 볼 때의 직관을 제공함
- 딥러닝은 특히 이 접근에 잘 맞으며, 학습 동역학이 단순화되고 핵심 양을 계산 가능한 설정이 다수 발견됨
데이터에 대한 선형화
- deep linear network는 비선형성을 제거해 입력 x에 대해서는 선형이지만 파라미터 θ에 대해서는 여전히 고도로 비선형인 모델이 됨
- 이런 모델은 단순해 보여도 딥러닝의 특징적 행동을 유지함
  - saddle-point-dominated loss landscape
  - 뚜렷한 phase transition과 분리된 시간척도를 가진 동역학
  - gradient descent에서의 edge-of-stability oscillation
  - 초기화에 크게 의존하는 inductive bias
- 분석은 보통 gradient descent의 연속시간 극한인 gradient flow 아래에서 수행되며, 데이터 분포와 초기화에 단순화 가정을 두면 정확한 해 또는 저차원 동역학계로 환원됨
- 반복적으로 드러나는 핵심은 greedy low-rank bias임
  - 학습은 과제의 일부 성분을 다른 성분보다 먼저 획득함
  - [Saxe et al. 2014]의 결과에서는 입력-출력 상관의 singular vector를 순차적으로 학습하고, singular value가 큰 모드가 먼저 학습됨
  - 이 편향은 signal과 noise를 분리해 일반화에 도움을 줄 수 있다고 연결됨
  - 비선형 네트워크에서도 단순한 함수가 복잡한 함수보다 먼저 학습되는 현상과 닮아 있음
- 작은 초기화, 더 깊은 깊이, 더 강한 mini-batch noise, 명시적 ℓ2 regularization은 이 greedy bias를 더 강화하는 것으로 정리됨
파라미터에 대한 선형화
- linearized network는 초기 파라미터 근처 Taylor 전개에서 비선형 항을 잘라내어 얻으며, 데이터 x에는 비선형이지만 파라미터 θ에는 선형이 됨
- 특정 설정에서는 전체 훈련 동안 원래 모델이 이 선형화로 잘 근사되며, 이 경우 학습 동역학은 사실상 선형 회귀와 동일해짐
- 차이는 Gram kernel 대신 neural tangent kernel, NTK가 동역학을 지배한다는 점임
- least squares와 작은 step size의 gradient descent에서는 최종 예측기가 NTK를 이용한 kernel ridge regression으로 주어져 해석 가능성이 높아짐
- 이 설정은 아키텍처가 NTK 구조를 통해 inductive bias를 어떻게 결정하는지 드러냄
- 입력 데이터 구조까지 고려하면 임의의 타깃 함수에 대한 예상 일반화 오차도 예측할 수 있으며, Figure 1의 결과도 이런 예측과 실험이 잘 맞음을 보여줌
- 또한 double descent와 scaling laws도 포착할 수 있음
- 다만 현실성과 한계도 분명함
  - generic neural network의 강한 feature learning을 포착하지 못함
  - 표본 복잡도에 대해 지나치게 비관적인 예측을 만들 수 있음
  - 학습을 선형 문제로 바꾸면서 딥러닝 특유의 비볼록 최적화 현상을 우회해 버림
선형화를 넘어서
- 이론의 중요한 전선은 데이터와 파라미터 모두에 대해 진짜로 비선형인 toy model을 해석 가능하게 만드는 데 있음
- 여기서는 데이터 분포의 영향이 훨씬 복잡해지므로 하나의 통합 틀을 세우기 어렵지만, 여러 방향에서 진전이 나타남
- Gaussian 입력과 구조화된 타깃을 가지는 single-index, multi-index model 계열에서는 fully nonlinear neural network가 kernel method보다 적은 샘플로 더 잘 동작함
  - 타깃 함수의 구조를 활용해 relevant feature를 학습하기 때문임
- statistical physics 방법은 이런 모델에서 Bayes-optimal inference와 학습 동역학의 정확한 점근 거동도 계산하게 함
- quadratic activation을 가진 2층 신경망에서는 정확한 점근, 훈련 동역학, scaling laws까지 특성화됨
- 그 밖에도 여러 비선형 현상이 분리되어 분석됨
  - logistic loss로 학습한 homogeneous network가 max-margin solution으로 수렴하는 현상
  - teacher-student model에서 훈련 동역학이 저차원 요약 통계로 환원되는 현상
  - associative memory model의 memorization
  - modular arithmetic task에서 학습되는 알고리듬적 구조
  - attention의 비선형 해석 가능 모델
  - 비선형 feature learning이 더 나은 scaling law를 만드는 경우
- 현재 비선형 toy model들은 각각 완전 비선형 학습의 일부 단면을 포착하지만, 아직 통합 프레임워크는 나타나지 않음

통찰을 주는 극한

현대 딥러닝 시스템은 수백억 개 이상의 파라미터와 방대한 데이터로 구성되어, 개별 파라미터를 추적하는 미시 이론은 거의 불가능해 보임
하지만 복잡계는 종종 크기를 사실상 무한대로 보내는 극한에서 단순화되고, 이 단순 구조가 실제 유한 시스템에도 유익한 통찰을 줌
- 이상기체 법칙이 무한 입자 수 극한에서 유도되지만 실제 유한 기체에도 잘 맞는 것과 같은 논리임
- 딥러닝에서도 극한은 복잡성을 다루는 핵심 수학 도구이며, 그 반복적 성공 자체가 emerging theory의 강한 증거로 제시됨
무한 너비 극한과 lazy-rich 이분법
- hidden layer의 뉴런 수를 무한대로 보내면, 개별 뉴런보다 전체 뉴런 집단의 분포 진화만 보면 되는 mean-field behavior가 나타남
- 다만 깊은 층의 activation 발산을 막기 위해 너비가 커질수록 초기화 스케일을 줄여야 하며, 이 감소율에 따라 서로 다른 두 종류의 한계 동역학이 나타남
- lazy 또는 kernel 또는 linearized regime
  - 초기화에서 각 파라미터 크기를 [width]−1/2로 줄이면 hidden neuron 입력이 사라지거나 폭주하지 않음
  - 이런 네트워크를 훈련하면 weight와 hidden representation은 거의 바뀌지 않지만, 그 작은 변화가 누적되어 출력 함수는 크게 변함
  - 결과적으로 학습 동역학은 파라미터에 대해 선형이며, 출력 함수 진화는 전적으로 NTK로 표현됨
  - 해석 가능성은 높지만 hidden representation이 거의 변하지 않아 feature learning을 보이지 않음
  - 이 한계는 이후 lazy라는 이름으로 정리됨
- rich 또는 active 또는 feature-learning regime
  - 마지막 층 가중치를 [width]−1로 더 강하게 축소하면, 모델이 학습 중 더 많이 변해야 하므로 feature learning이 가능한 다른 극한이 생김
  - 이 경우 초기 출력은 무한 너비에서 0이 되지만, 훈련 중에는 각 gradient step마다 order-one 수준으로 의미 있게 성장할 수 있음
  - shallow mean-field network에서 시작된 이 아이디어는 arbitrary depth의 네트워크로 확장됐고, 관련 스케일링은 Maximal Update Parameterization, µP와 연결됨
  - 이제는 infinite-width network도 feature를 학습할 수 있다는 점이 널리 받아들여짐
- rich regime에서 나타나는 행동
  - hidden feature가 시간에 따라 변하고 입력 데이터 구조에 적응함
  - 내부 표현의 geometry가 훈련 중 바뀜
  - 뉴런의 부분집단이 서로 다른 잠재 feature에 특화됨
  - 최적 예측이 고차원 데이터의 저차원 부분공간에 있을 때, 첫 층 가중치 분포가 그 관심 부분공간을 증폭하는 방향으로 진화함
  - 초기화 스케일을 더 작게 만들면 앞서 언급한 greedy low-rank bias가 자주 다시 나타남
- 유한 너비에서도 나타나는 lazy-rich 전이
  - 출력 스케일을 낮추면 feature learning이 촉진되어 rich regime 쪽으로 이동함
  - 출력 스케일을 높이면 훈련 동역학이 더 선형화되어 lazy behavior가 나타남
  - 같은 유한 네트워크도 출력 스케일에 따라 lazy 또는 rich 학습을 보일 수 있으며, Figure 2가 이 차이를 시각화함
무한 깊이 극한과 다른 하이퍼파라미터 극한
- deep residual network에서는 각 층 기여를 적절히 줄이면 안정적인 infinite depth limit에 도달할 수 있음
- 각 층을 [depth]−1로 억제하면 residual stream이 깊이에 따라 매끄럽게 변하는 극한이 나오며, 이는 Neural ODE를 떠올리게 함
- 각 층을 [depth]−1/2로 억제하면 residual stream이 마치 확률미분방정식에 의해 구동되는 것처럼 확산하는 극한이 나옴
- 이 두 극한은 transformer 같은 현실적 아키텍처에서 질적으로 다른 해로 수렴하며, 어느 쪽이 더 중요한지는 아직 분명하지 않음
다른 크기 극한
- recurrent architecture는 feedforward layer 수 대신 recurrent 구조의 무한 극한을 분석할 수 있음
- 최신 transformer에는 multi-head self-attention과 mixture-of-expert MLP 같은 더 표현력 있는 블록이 들어감
  - attention은 head count, head size, context length라는 여러 스케일 방향을 가짐
  - mixture-of-expert는 expert count, expert size, sparsity라는 여러 스케일 방향을 가짐
- 이런 서로 다른 무한 극한의 상호작용을 분명히 하는 일은 현대 실무와 접점을 만들고, 초기화 및 최적화 관련 하이퍼파라미터를 분리해 이해하는 데 중요함

표와 그림에서 드러나는 요약

Table 1은 딥러닝의 핵심 연구 도구가 물리학의 도구와 밀접하게 닮았음을 정리함
- solvable settings는 deep linear network, kernel regression, multi-index model과 대응되고, 물리학에서는 harmonic oscillator, hydrogen atom, Ising model과 대응됨
- simplifying limits는 lazy vs rich learning, width와 depth의 무한 극한, small initialization과 연결되며, 물리학에서는 thermodynamic limit, classical limit, hydrodynamic limit와 나란히 놓임
- simple empirical laws는 neural scaling laws, edge of stability, neural feature ansatz로 나타나고, 물리학의 Kepler, Snell, Boyle, Hooke, Newton, Faraday, Ohm, Poiseuille, Planck, Hubble 같은 법칙들과 병치됨
- system parameters 연구는 step size를 sharpness regularization으로 보는 관점, µP와 width scaling과 연결되고, 물리학의 scaling analysis, nondimensionalization, chaotic vs ordered regime과 유사하게 정리됨
- universal phenomena는 모델 전반에 공통으로 나타나는 inductive bias와 representation으로 나타나며, 물리학의 critical phenomena, renormalization group flow와 대응됨
Figure 1은 선형화가 정확한 해를 제공하고 실험과 잘 맞는다는 점을 강조함
- deep linear network에서는 task-aligned initialization과 whitened input 아래에서 singular mode가 순차적으로 학습됨
- nonlinear network를 초기화점에서 Taylor 전개로 선형화하면 NTK를 통한 kernel ridge regression으로 환원되고, 테스트 성능 예측이 CIFAR-5m의 여러 이진 분류 과제에서 실험과 가깝게 맞음
Figure 2는 큰 출력 배율과 작은 출력 배율만으로도 lazy와 rich 훈련 동역학을 유도할 수 있음을 보여줌
- 같은 shallow student network에서도 α = 0.1일 때는 student weight가 크게 움직이며 teacher feature 방향 주변으로 모여 rich dynamics를 보임
- α = 30일 때는 loss는 떨어지지만 student weight는 거의 움직이지 않아 lazy dynamics를 보임