Learning Rate (2) 썸네일형 리스트형 [PyTorch] Is scheduler always good? 3줄 요약 scheduler 는 lr 값을 조절하면서 학습이 더 잘 이뤄지도록 한다. 하지만 그로 인해 성능이 하락할 수도 있다. pytorch scheduler 라고 검색하면, 다양한 종류의 scheduler 들이 쏟아진다. 그 중에서 맞는 걸 고르면 된다. 제일 좋은 방법은 scheduler 관련 논문을 읽고, 모델에 가장 적합한 걸 쓰면 된다. 하지만 결국 이론은 이론이고 다 실험해보기 전까지는 모른다. 과연 정말 좋기만 할까? 나는 lambdaLR scheduler 를 사용했다. 사용하기 전과 다르게 확실히 후반부로 갈수록 loss 감소폭이 줄었고, 학습이 느려졌음을 알 수 있었다. 문제는 EarlyStop 에 의해 이전 최고치 성능에 도달하기 전에 멈췄다. 심지어 EarlyStop 이 없었더라도.. [error] pretraind language model 이 같은 값만 뱉는 경우 이런 사람들에게 bert model 이 똑같은 인코딩 값만 뱉어요. loss 는 줄어드는데, 정확도는 늘지 않아요. 3줄 요약 BERT 와 같은 pretrained language model 이 똑같은 값만 출력하는 경우 learning rate 가 높아서 그렇다. lr 을 낮추자. 관련 글 모음 https://stackoverflow.com/questions/61855486/bert-encoding-layer-produces-same-output-for-all-inputs-during-evaluation-pytor BERT encoding layer produces same output for all inputs during evaluation (PyTorch) I don't understand why.. 이전 1 다음