논문명: ReZero is All You Need: Fast Convergence at Large Depth
논문링크: https://arxiv.org/abs/2003.04887
ReZero is All You Need: Fast Convergence at Large Depth
Deep networks often suffer from vanishing or exploding gradients due to inefficient signal propagation, leading to long training times or convergence difficulties. Various architecture designs, sophisticated residual-style networks, and initialization sche
arxiv.org
진짜 핵심 아이디어만 정리합니다
ReZero: ResNet 보다 더 쉽게 할 수 있어
- 2번이 우리가 흔히 아는 ResNet 이다
- 6번은 ResNet 처럼 그냥 더하는 것보다 alpha 하나 붙여서 이것도 학습하자가 끝이다
- 이렇게 하면 수렴도 빠르다 등 장점이 많다고 한다
자세한 설명은 아래 블로그가 잘 해놓으셔서 보시길 :)
https://seewoo5.tistory.com/17
ReZero is All You Need: Fast Convergence at Large Depth
딥러닝의 발전에 있어서 중요한 발견 중 한가지는 ResNet의 발명이라고 할 수 있습니다. 매우 deep한 뉴럴넷을 학습시키기위해서 input의 정보를 그대로 output에 더해줌으로써 모델은 input과 output의 "
seewoo5.tistory.com