본문 바로가기

NLP

(111)
[AI 기사] 포자랩스 AI 작곡 회사, 포자랩스 포자랩스, 김선주 연세대 교수 영입..."AI가 배경음악 틀어준다" - AI타임스 AI 작곡 스타트업 포자랩스(POZAlabs)가 김선주 연세대학교 컴퓨터과학과 교수를 기술 고문으로 영입했다고 5일 밝혔다. 포자랩스는 김 교수와 영상에 맞는 배경음악을 인공지능(AI)으로 만드는 기 www.aitimes.com 취업 준비를 해야겠다 싶어서 이러저리 알아보다가 굉장히 흥미로운 회사를 발견했었다. 회사 이름은 '포자랩스'다. 회사가 하는 일은 누구나 수준 높은 작곡을 할 수 있는 AI 기술을 만드는 것. 최근 네이버에 들어갔다가 회사이름이 반가워 들어가보니, 배경음악 구독 서비스를 제공하고 있었다. 비즈니스 모델이 궁금했는데, 이런 방향으로 제시한 것 같았다. 이미 검증된 기술력 실..
[용어정리] BLEU Score 3줄 요약 N - gram 에 기반하여기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여번역에 대한 성능을 측정하는 방법   Bilingual Evaluation Understudy bilingual: 2개 언어의 → 입력 언어와 출력 언어를 의미함evaluation: 평가understudy: 검색해보면, '임시대역배우'라고 나온다. 자세히 찾아보지 않았으나, 번역 태스크에서 완벽한 metric 이 존재하지 않다보니 이런 표현을 쓴 것으로 추측된다. 잘 번역되었다는 것은 무슨 의미인가? 사실 BLEU 를 공부하는 사람들은 나를 포함해 기초 단계에 있는 사람들이다. 나는 무작정 공부하면 다 까먹어서, 왜 이런 기준이 탄생했는지부터 의문을 가져보기로 했다. 자, 다음과 같이 번역된 예제가 ..
[AI 도서] 3년후 AI 초격차 시대가 온다 도서명: 3년 후, AI 초격차 시대가 온다 한줄평 :개인과 기업을 위한 AI 안내서이자 교과서 추천 자신이 회사의 경영진인데, AI를 도입해보고자 하는 경우 AI 관련 사례와 전망에 대한 분석을 보고 싶은 경우 AI를 개인을 넘어 기업 단위로 어떻게 받아들이고 적용하면 좋을지 알고 싶은 경우 비추천 2019년에 출간된 책임을 감안해야 한다. 그 사이에 세상은 무수히 변했다. 새로운 사례와 기술의 발전은 더 최근 책을 봐야 한다. 비즈니스 관점이 다소 포함되어 있어서 기업가의 입장에 관심이 없다면 볼 필요 없는 것도 많다. 이 책에서 인상 깊었던 내용 1. 인공지능은 전문 영역이 아닌 교양의 영역이다. 2. 과거에는 노동 가치가 높았다. 그래서 노동 자본이 많은 회사가 시장을 주도했다. 하지만 기술이 노..
[용어정리] agnostic 3줄 요약: what is Agnostic? ### - agnostic 의미: ### 과 무관하다, 독립적이다 예시: task agnostic 은 task 에 관계 없이, 독립적이다를 의미함 주로 나오는 예제 Model Agnostic → Model - Independent : 이건 모델에 무관합니다. 모델과 독립적입니다. Task Agnostic → Task - Indepedent : 이건 태스크와 무관합니다. 태스크에 관계 없습니다. Large language pretrained model like BERT is language task agnostic. 번역: BERT 와 같이 거대한 언어 사전학습 모델은 task agnostic 합니다. 의역: 즉, Question Answering, Transl..
[PyTorch] torch.max returns also indices 3줄 요약 PyTorch 의 torch.max 함수는 값뿐만 아니라 색인(index) 도 함께 return 한다. (시작하기 전에 PyTorch 고수분들은 나가주세요, 부끄러우니까.) 배경 Math Word Problem 분야의 최신 논문을 읽고, 그 코드를 활용하고자 코드 분석하는 과정에서 상당히 실력이 늘었다. PyTorch 에 능통한 저자는 forward 함수 하나에 300 줄을 넘게 태우는 분이셨다... https://github.com/allanj/deductive-mwp GitHub - allanj/Deductive-MWP Contribute to allanj/Deductive-MWP development by creating an account on GitHub. github.com 그 분의..
[전처리] 문자열 유사도 측정 (difflib) 이런 분들께 semantic similarity 가 아닌 apparent similarity 를 측정해야 할 때 즉, '안녕하세요' 와 '단념하세요' 와 같은 문장의 유사도도 측정해보고 싶을 때 (위 예시를 보면 아실 수 있듯이, 의미 유사도를 측정이 아닌 점을 미리 밝힙니다.) 한국어도 보다 정밀하게 써보고 싶다면? https://github.com/goonbamm/korean_apparent_similarity GitHub - goonbamm/korean_apparent_similarity: To score apparent similarity between korean texts To score apparent similarity between korean texts. Contribute to goo..
[PyTorch] Is scheduler always good? 3줄 요약 scheduler 는 lr 값을 조절하면서 학습이 더 잘 이뤄지도록 한다. 하지만 그로 인해 성능이 하락할 수도 있다. pytorch scheduler 라고 검색하면, 다양한 종류의 scheduler 들이 쏟아진다. 그 중에서 맞는 걸 고르면 된다. 제일 좋은 방법은 scheduler 관련 논문을 읽고, 모델에 가장 적합한 걸 쓰면 된다. 하지만 결국 이론은 이론이고 다 실험해보기 전까지는 모른다. 과연 정말 좋기만 할까? 나는 lambdaLR scheduler 를 사용했다. 사용하기 전과 다르게 확실히 후반부로 갈수록 loss 감소폭이 줄었고, 학습이 느려졌음을 알 수 있었다. 문제는 EarlyStop 에 의해 이전 최고치 성능에 도달하기 전에 멈췄다. 심지어 EarlyStop 이 없었더라도..
[error] RuntimeError: CUDA error: invalid device ordinal 원인GPU devices 번호를 잘못 지정했을 때 발생한다.예컨대, GPU 가 2개 밖에 없는데 3번이나 4번에 지정하면 위와 같은 에러가 발생한다.혹은 GPU device 가 0, 1, 2, 3 과 같은 순서로 놓여 있지 않아서 발생할 수 있다. 해결책 1. CUDA_DEVICE_ORDER 먼저 GPU 순서를 명확히 한다.다음 코드를 실행하면, GPU 번호가 PCI BUS ID 에 따라 0, 1, .. 이렇게 배정된다.os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID" 물론 bash/Terminal 에서 실행하는 경우엔 다음과 같이 하면 된다.CUDA_DEVICE_ORDER=PCI_BUS_ID python script.py  2.  C..