본문 바로가기

전체 글

(116)

[PyTorch] torch.max returns also indices 3줄 요약 PyTorch 의 torch.max 함수는 값뿐만 아니라 색인(index) 도 함께 return 한다. (시작하기 전에 PyTorch 고수분들은 나가주세요, 부끄러우니까.) 배경 Math Word Problem 분야의 최신 논문을 읽고, 그 코드를 활용하고자 코드 분석하는 과정에서 상당히 실력이 늘었다. PyTorch 에 능통한 저자는 forward 함수 하나에 300 줄을 넘게 태우는 분이셨다... https://github.com/allanj/deductive-mwp GitHub - allanj/Deductive-MWP Contribute to allanj/Deductive-MWP development by creating an account on GitHub. github.com 그 분의..

[전처리] 문자열 유사도 측정 (difflib) 이런 분들께 semantic similarity 가 아닌 apparent similarity 를 측정해야 할 때 즉, '안녕하세요' 와 '단념하세요' 와 같은 문장의 유사도도 측정해보고 싶을 때 (위 예시를 보면 아실 수 있듯이, 의미 유사도를 측정이 아닌 점을 미리 밝힙니다.) 한국어도 보다 정밀하게 써보고 싶다면? https://github.com/goonbamm/korean_apparent_similarity GitHub - goonbamm/korean_apparent_similarity: To score apparent similarity between korean texts To score apparent similarity between korean texts. Contribute to goo..

[PyTorch] Is scheduler always good? 3줄 요약 scheduler 는 lr 값을 조절하면서 학습이 더 잘 이뤄지도록 한다. 하지만 그로 인해 성능이 하락할 수도 있다. pytorch scheduler 라고 검색하면, 다양한 종류의 scheduler 들이 쏟아진다. 그 중에서 맞는 걸 고르면 된다. 제일 좋은 방법은 scheduler 관련 논문을 읽고, 모델에 가장 적합한 걸 쓰면 된다. 하지만 결국 이론은 이론이고 다 실험해보기 전까지는 모른다. 과연 정말 좋기만 할까? 나는 lambdaLR scheduler 를 사용했다. 사용하기 전과 다르게 확실히 후반부로 갈수록 loss 감소폭이 줄었고, 학습이 느려졌음을 알 수 있었다. 문제는 EarlyStop 에 의해 이전 최고치 성능에 도달하기 전에 멈췄다. 심지어 EarlyStop 이 없었더라도..

[error] RuntimeError: CUDA error: invalid device ordinal 원인GPU devices 번호를 잘못 지정했을 때 발생한다.예컨대, GPU 가 2개 밖에 없는데 3번이나 4번에 지정하면 위와 같은 에러가 발생한다.혹은 GPU device 가 0, 1, 2, 3 과 같은 순서로 놓여 있지 않아서 발생할 수 있다. 해결책 1. CUDA_DEVICE_ORDER 먼저 GPU 순서를 명확히 한다.다음 코드를 실행하면, GPU 번호가 PCI BUS ID 에 따라 0, 1, .. 이렇게 배정된다.os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID" 물론 bash/Terminal 에서 실행하는 경우엔 다음과 같이 하면 된다.CUDA_DEVICE_ORDER=PCI_BUS_ID python script.py 2. C..

[error] pretraind language model 이 같은 값만 뱉는 경우 이런 사람들에게 bert model 이 똑같은 인코딩 값만 뱉어요. loss 는 줄어드는데, 정확도는 늘지 않아요. 3줄 요약 BERT 와 같은 pretrained language model 이 똑같은 값만 출력하는 경우 learning rate 가 높아서 그렇다. lr 을 낮추자. 관련 글 모음 https://stackoverflow.com/questions/61855486/bert-encoding-layer-produces-same-output-for-all-inputs-during-evaluation-pytor BERT encoding layer produces same output for all inputs during evaluation (PyTorch) I don't understand why..

[논문 이해] Math Word Problem Dataset Math Word Problem 분야 관련 논문들을 읽다보면, 지겹게 나오는 dataset 들이 있다. 이 dataset 을 간과하기엔, 파고드는 논문들이 많아서 정리하고자 한다. Math Word Problem 자연어 처리 분야(Natural Language Processing) 분야 task 중 하나 모델에게 문장형 수학 문제를 풀도록 하는 것 문제 해석: Dan 은 2개의 펜을, Jessica 는 4개의 펜을 가지고 있다. 총 몇개의 펜을 갖고 있는가? 정답: 6 방정식: x = 4 + 2 보통, 정답만 맞추는 것보다 해당 문제 풀이를 의미하는 방정식을 생성(generation) 하도록 한다. 오늘은 대표적인 dataset 4개를 간략히 소개하고자 한다. Math23k MathQA MAWPS SVA..

[논문이해] Investigating Math Word Problems using Pretrained Multilingual Language Models 논문명: Investigating Math Word Problems using Pretrained Multilingual Language Models 논문링크: https://arxiv.org/pdf/2105.08928.pdf 요약 이 논문은 2가지 언어적 관점으로 Math Word Problem 을 접근한다. Cross-lingiual: 특정 언어(예시: 영어)로 학습한 모델이 다른 언어(예시: 중국어) 데이터도 잘 풀까? Multilingual: 여러 언어로 학습하는 게 단일 언어로 학습한 것보다 좋을까? 위 2가지를 명백히 하기 위해, MathQA(english) 와 Math23k(chinese) 를 적절히 가공한다. 실험을 통해 다음을 밝혀냈다. Cross-lingiual 은 효과적이지 않다 → ..

[PyTorch] Auto Mixed Precision 3줄 요약 NVIDIA 와 Baidu 에서 부동소수점의 이점을 이용하여 딥러닝 연산량을 줄여서 속도를 높이는 기법 (참고로 여기서 'precision' 은 평가 기준 '정확도'를 의미하는 단어가 아닙니다. 저는 처음에 착각해서 혹시나 저처럼 착각하시는 분들이 계실까봐 작성합니다.) 사용법 pytorch docs: https://pytorch.org/docs/stable/amp.html# pytorch 에선 AMP: Automatic Mixed Precision 으로 불리고 있다. Automatic Mixed Precision package - torch.amp — PyTorch 1.12 documentation The following lists describe the behavior of eligibl..

이전 1 ··· 11 12 13 14 15 다음

티스토리툴바