반응형

Development/AI 8

Tacotron2 TTS 한국어 예제 실습 (KSS datasets) - (2)

Development Environment - Colab Plus Toolkit - ESPnet TTS Model - Tactron2 dataset - KSS 본 글은 훈련이 완료된 모델을 활용하는 과정입니다. ESPnet 설치 및 훈련 과정이 필요하다면 다음 글을 참고하세요. Tacotron2 TTS 한국어 예제 실습 (KSS dataset) - (1) 기본 세팅 google drive connect from google.colab import drive drive.mount("/content/drive",force_remount=True) 패키지 설치 !pip install espnet_model_zoo !pip install noisereduce !pip install --upgrade parall..

Development/AI 2022.05.13

Tacotron2 TTS 한국어 예제 실습 (KSS dataset) - (1)

Development Environment - Colab Plus Toolkit - ESPnet TTS Model - Tactron2 dataset - KSS 본 글은 ESPnet 설치부터 훈련까지의 과정입니다. 활용 예제를 보시려면 다음 글을 참고하세요. Tacotron2 TTS 한국어 예제 실습 (KSS datasets) - (2) dataset 준비 https://www.kaggle.com/datasets/bryanpark/korean-single-speaker-speech-dataset 위 링크에서 dataset 및 script 다운로드 기본 세팅 google drive connect # google drive 연결 from google.colab import drive drive.mount(&#..

Development/AI 2022.05.13

자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어

자연어 처리(NLP)를 학습할 때 필요한 용어들을 기초적인 지식 수준에서 이해하기 쉽게 정리합니다. 예제 코드는 Google Colab 을 기반으로 작성했습니다. 자연어 처리(NLP) 개녀 잡기의 다른 포스팅도 참고하세요. 자연어 처리(NLP) 개념 잡기 (1) - 말뭉치, 토큰화 자연어 처리(NLP) 개념 잡기 (2) - 표제어, 어간 정제(Cleaning) 정제 및 정규화는 텍스트 데이터를 용도에 맞게 바꾸는 방법이다. 말뭉치로부터 노이즈 데이터를 제거한다. 토큰화 작업에 방해가 되는 부분을 제거한다. 보통 토큰화 작업 전에 정제 작업을 진행하지만 토큰화 작업 후에도 남아있는 노이즈 데이터를 지우는 데 활용하기도 한다. 정제 작업에서 제거할 노이즈 데이터라고 하면 의미가 없는 단어(특수문자, 공백 등..

Development/AI 2022.01.09

자연어 처리(NLP) 개념 잡기 (2) - 표제어, 어간

자연어 처리(NLP)를 학습할 때 필요한 용어들을 기초적인 지식 수준에서 이해하기 쉽게 정리합니다. 예제 코드는 Google Colab 을 기반으로 작성했습니다. 자연어 처리(NLP) 개념 잡기의 다른 포스팅도 참고하세요. 자연어 처리(NLP) 개념 잡기 (1) - 말뭉치, 토큰화 자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어 표제어(Lemmatization) 표제어는 단어의 기본형이다. 보통 사전에 대표로 실린 단어를 뜻한다. 예를 들어 '사과들' 을 뜻하는 단어는 'apples' 이지만 이 단어의 표제어는 본래의 뜻이 '사과'인 'apple' 이다. 또한 'apples' 단어로 어간과 접사를 나누어 보면 어간:..

Development/AI 2022.01.08

자연어 처리(NLP) 개념 잡기 (1) - 말뭉치, 토큰화

자연어 처리(NLP)를 학습할 때 필요한 용어들을 기초적인 지식 수준에서 이해하기 쉽게 정리합니다. 예제 코드는 Google Colab 을 기반으로 작성했습니다. 자연어 처리(NLP) 개념 잡기의 다른 포스팅도 참고하세요. 자연어 처리(NLP) 개념 잡기 (2) - 표제어, 어간 자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어 말뭉치 말뭉치는 원시 텍스트(ASCII나 UTF-8)와 이 텍스트에 연관된 메타데이터를 포함한다. 메타데이터는 식별자, 레이블, 타임스탬프 등 텍스트와 관련된 어떤 부가 정보도 될 수 있다. 즉, 말뭉치는 텍스트를 가공·처리·분석할 수 있는 형태로 모아 놓은 자료의 집합이다. 단순하게 생각하면 우리가 사용하는 텍스트 표본이라고 볼 수 있다. 모두의 말뭉치 (kor..

Development/AI 2022.01.04

파이토치로 배우는 자연어 처리 - 리뷰

자연어처리의 기본을 공부하기 위해 '파이토치로 배우는 자연어처리'를 읽고 작성한 리뷰입니다. 지인에게 선물 받은 책으로 작성한 리뷰입니다. 책 소개 파이토치로 배우는 자연어 처리 - 딥러닝을 이용한 자연어 처리 애플리케이션 구축 출판사 : 한빛미디어 지은이 : 델립 라오(Delip Rao), 브라이언 맥머핸(Brian McMahan) 옮긴이 : 박해선 리뷰 이 책의 목표는 자연어 처리와 딥러닝을 처음 접하는 독자에게 두 분야에서 중요한 주제를 맛보도록 하는 것이라고 설명하고 있습니다. 그 목표에 맞게 사전지식이 없고 수학이 어려운 사람들에게 접근하기 쉽게 작성한 책입니다. 첫 번째로 마음에 들었던 부분 중 하나는 수학 공식이 거의 없다는 것입니다. 보통 인공지능 관련 책을 보게 되면 많은 ..

Development/AI 2021.12.23

파이토치로 텐서 기본 조작하기 (Manipulating Tensor with PyTorch)

개발환경 : Google Colab 텐서를 만들기 전에 텐서 정보를 계속 확인하기 위해 사전 함수를 만든다. #Tensor 상세 정보 확인 def desc(x): print("타입: {} / 크기: {}".format(x.type(), x.shape)) print("값: {}\n".format(x)) 텐서 만들기 기본 import torch desc(torch.Tensor(2, 2)) ''' 타입: torch.FloatTensor / 크기: torch.Size([2, 2]) 값: tensor([[1.2292e+09, 3.0907e-41], [8.5479e-44, 4.4842e-44]]) ''' 파이썬 리스트로 만들기 import torch a = [[1, 2, ..

Development/AI 2021.12.18

머신러닝 기초다지기, 지도 학습이란?

자연어처리 공부를 하며 남기는 기록 지도 학습 지도학습이란 샘플에 대응하는 정답을 예측하는 학습 방법 중 하나이다. 훈련 데이터로부터 하나의 함수(예측 모델)가 유추되고, 예측 모델에 대한 평가를 통해 가중치를 최적화하며 정확도를 높인다. 훈련 데이터 정답을 예측하기 위해 샘플이 되는 데이터이다. 일반적인 알고리즘에서는 Input(입력)과 같은 말이며 'x'로 표기한다. 레이블 훈련데이터에 상응하며 예측되는 대상이다. '정답'과 같은 말이며 'y'로 표기한다. 예측 모델 모델은 x를 받아 y를 예측하는 함수이다. 즉, 훈련데이터로 정답을 예측한다. 가중치 훈련 데이터를 잘 예측하기 위해서, 추가적인 제약 조건을 만족시키기 위해서 사용한다. 즉, 정확도를 높이기 ..

Development/AI 2021.12.17
반응형