본문 바로가기

deep learning

(8)

[논문이해] What learning algorithm is in-context learning? Investigations with linear models 논문명: What learning algorithm is in-context learning? Investigations with linear models 논문링크: https://arxiv.org/abs/2211.15661 What learning algorithm is in-context learning? Investigations with linear models Neural sequence models, especially transformers, exhibit a remarkable capacity for in-context learning. They can construct new predictors from sequences of labeled examples $(x, f(x))$ prese..

[용어정리] MSE loss vs Cross Entropy loss 코드에서는 무슨 차이가 있어? 아마 이런 글을 찾은 사람들은 구현할 때 이 둘의 차이가 크게 없다고 보고 궁금해서 찾아봤을 것이다. 나도 그렇다. 대강 이런 생각을 했었다. 어차피 둘 다 정답을 향해 수렴하는데? 학습은 뭘 쓰든 잘 될 것 같은데? 분포적으로는 이해를 했지만 찾아보면 이런 이야기를 한다. Gaussian 분포를 미분하면, MSE loss 가 나온다 → 그러므로 연속 확률 변수에 쓰자 Categorical 분포를 미분하면, CE loss 가 나온다 → 그러므로 이산 확률 변수에 쓰자 (여기에 정리가 잘 되어 있어서 참고하시길.) 좋다. 원리적으로는 이게 맞지. 그래서 성능도 그게 더 좋아? 근데 성능 면에서도 더 좋은 건가? 그에 대해서는 말이 없었다. 그냥 Gaussian 분포는 연속적인..

[용어정리] reparameterization trick 주의 이 글은 설명 글이 아님. 단순히 어떤 느낌을 봐야한다는 관점을 짧게 정리한 글임. 그런데 이 관점도 틀릴 수도 있음. VAE 에 대해 어느 정도 이해해야 이 글을 읽을 수 있음. reparameterization trick VAE 에 대해 공부하다가, 'reparameterization trick' 을 알게 되었다. 다행히 정말 잘 정리된 글이 있어서, 수식을 완전히 이해할 수 있다면 이 글은 보물 그 자체다. https://jaejunyoo.blogspot.com/2017/05/auto-encoding-variational-bayes-vae-3.html 초짜 대학원생의 입장에서 이해하는 Auto-Encoding Variational Bayes (VAE) (3) Machine learning an..

[용어정리] METEOR Score 참고 자료 참고자료를 많이 참고했습니다. 좋은 글 써주셔서 감사드립니다. Thank you for your hard work :) https://machinelearninginterview.com/topics/machine-learning/meteor-for-machine-translation/ METEOR metric for machine translation METEOR, for evaluating machine generated text. Used for applications like machine translation, summarization, image captioning and so on.... machinelearninginterview.com 시작하기 전에 'BLEU Score'의 한계..

[PyTorch] torch.max returns also indices 3줄 요약 PyTorch 의 torch.max 함수는 값뿐만 아니라 색인(index) 도 함께 return 한다. (시작하기 전에 PyTorch 고수분들은 나가주세요, 부끄러우니까.) 배경 Math Word Problem 분야의 최신 논문을 읽고, 그 코드를 활용하고자 코드 분석하는 과정에서 상당히 실력이 늘었다. PyTorch 에 능통한 저자는 forward 함수 하나에 300 줄을 넘게 태우는 분이셨다... https://github.com/allanj/deductive-mwp GitHub - allanj/Deductive-MWP Contribute to allanj/Deductive-MWP development by creating an account on GitHub. github.com 그 분의..

[PyTorch] Is scheduler always good? 3줄 요약 scheduler 는 lr 값을 조절하면서 학습이 더 잘 이뤄지도록 한다. 하지만 그로 인해 성능이 하락할 수도 있다. pytorch scheduler 라고 검색하면, 다양한 종류의 scheduler 들이 쏟아진다. 그 중에서 맞는 걸 고르면 된다. 제일 좋은 방법은 scheduler 관련 논문을 읽고, 모델에 가장 적합한 걸 쓰면 된다. 하지만 결국 이론은 이론이고 다 실험해보기 전까지는 모른다. 과연 정말 좋기만 할까? 나는 lambdaLR scheduler 를 사용했다. 사용하기 전과 다르게 확실히 후반부로 갈수록 loss 감소폭이 줄었고, 학습이 느려졌음을 알 수 있었다. 문제는 EarlyStop 에 의해 이전 최고치 성능에 도달하기 전에 멈췄다. 심지어 EarlyStop 이 없었더라도..

[error] RuntimeError: CUDA error: invalid device ordinal 원인GPU devices 번호를 잘못 지정했을 때 발생한다.예컨대, GPU 가 2개 밖에 없는데 3번이나 4번에 지정하면 위와 같은 에러가 발생한다.혹은 GPU device 가 0, 1, 2, 3 과 같은 순서로 놓여 있지 않아서 발생할 수 있다. 해결책 1. CUDA_DEVICE_ORDER 먼저 GPU 순서를 명확히 한다.다음 코드를 실행하면, GPU 번호가 PCI BUS ID 에 따라 0, 1, .. 이렇게 배정된다.os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID" 물론 bash/Terminal 에서 실행하는 경우엔 다음과 같이 하면 된다.CUDA_DEVICE_ORDER=PCI_BUS_ID python script.py 2. C..

[용어 정리] Ablation Study 3줄 요약: what is ablation study? 특정 부분을 제거해서 달라지는 게 무엇인지를 파악하기 위해 설계 및 진행한 실험 의미 ablation: 절제. 여기서 '절제'는 의학용어에 가깝다. 특정 장기, 조직 등 생명체의 일부를 제거하는 과정을 의미한다. study: '연구'를 의미한다. 기원 즉, ablation study 는 원래 생물학에서 쓰이는 용어였다. 쉽게 생각해봐도, 과거 수많은 동물 실험들이 특정 부위가 어떤 기능을 하는지 알기 위해 그걸 제거한 동물과 제거하지 않은 동물을 비교한 사실을 어렵지 않게 떠올릴 수 있다. 처음으로 동물을 연구한다면, 살아있는 생명체를 해부해야 하니 그 속을 열었을 것이다. 그런데 무언가 수축과 팽창을 하는 덩어리가 있다. 우리는 그게 심장인 걸 알..

이전 1 다음

티스토리툴바