정규화 없는 Transformers 기술

12 hours ago 3

추상

  • 현대 신경망에서 정규화 계층은 필수적이라고 여겨져 왔음.
  • 본 연구는 정규화 없이도 동일하거나 더 나은 성능을 달성할 수 있음을 보여줌.
  • Dynamic Tanh (DyT)라는 간단한 기법을 소개하며, 이는 정규화 계층을 대체할 수 있음.
  • DyT는 주로 하이퍼파라미터 튜닝 없이도 정규화된 모델과 동등하거나 더 나은 성능을 발휘함.
  • 다양한 설정에서 DyT의 효과를 검증하였으며, 이는 정규화 계층의 필수성을 재고하게 함.

구현

  • DyT 모듈은 PyTorch 코드 몇 줄로 구현 가능함.

주요 발견

  • 레이어 정규화는 스케일된 tanh 함수처럼 작동함.
  • 초기 레이어에서는 주로 선형적이나, 깊은 레이어에서는 tanh 함수 특유의 S자 곡선을 가짐.

평가

  • 다양한 아키텍처와 작업에서 DyT의 효과와 일반성을 평가함.
  • 모든 경우에서 DyT를 사용한 Transformers는 정규화된 모델과 유사하거나 더 나은 성능을 발휘함.

자료

  • 연구에 대한 자세한 내용은 논문 다운로드를 통해 확인 가능함.
  • 구현 세부사항은 GitHub 저장소에서 확인 가능함.

Read Entire Article