mse loss vs ce loss (1) 썸네일형 리스트형 [용어정리] MSE loss vs Cross Entropy loss 코드에서는 무슨 차이가 있어? 아마 이런 글을 찾은 사람들은 구현할 때 이 둘의 차이가 크게 없다고 보고 궁금해서 찾아봤을 것이다. 나도 그렇다. 대강 이런 생각을 했었다. 어차피 둘 다 정답을 향해 수렴하는데? 학습은 뭘 쓰든 잘 될 것 같은데? 분포적으로는 이해를 했지만 찾아보면 이런 이야기를 한다. Gaussian 분포를 미분하면, MSE loss 가 나온다 → 그러므로 연속 확률 변수에 쓰자 Categorical 분포를 미분하면, CE loss 가 나온다 → 그러므로 이산 확률 변수에 쓰자 (여기에 정리가 잘 되어 있어서 참고하시길.) 좋다. 원리적으로는 이게 맞지. 그래서 성능도 그게 더 좋아? 근데 성능 면에서도 더 좋은 건가? 그에 대해서는 말이 없었다. 그냥 Gaussian 분포는 연속적인.. 이전 1 다음