정규화 없는 Transformers 기술
1 day ago
6
추상
- 현대 신경망에서 정규화 계층은 필수적이라고 여겨져 왔음.
- 본 연구는 정규화 없이도 동일하거나 더 나은 성능을 달성할 수 있음을 보여줌.
- Dynamic Tanh (DyT)라는 간단한 기법을 소개하며, 이는 정규화 계층을 대체할 수 있음.
- DyT는 주로 하이퍼파라미터 튜닝 없이도 정규화된 모델과 동등하거나 더 나은 성능을 발휘함.
- 다양한 설정에서 DyT의 효과를 검증하였으며, 이는 정규화 계층의 필수성을 재고하게 함.
구현
- DyT 모듈은 PyTorch 코드 몇 줄로 구현 가능함.
주요 발견
- 레이어 정규화는 스케일된 tanh 함수처럼 작동함.
- 초기 레이어에서는 주로 선형적이나, 깊은 레이어에서는 tanh 함수 특유의 S자 곡선을 가짐.
평가
- 다양한 아키텍처와 작업에서 DyT의 효과와 일반성을 평가함.
- 모든 경우에서 DyT를 사용한 Transformers는 정규화된 모델과 유사하거나 더 나은 성능을 발휘함.
자료
- 연구에 대한 자세한 내용은 논문 다운로드를 통해 확인 가능함.
- 구현 세부사항은 GitHub 저장소에서 확인 가능함.
-
Homepage
-
Tech blog
- 정규화 없는 Transformers 기술