반응형

머신러닝 2

자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어

자연어 처리(NLP)를 학습할 때 필요한 용어들을 기초적인 지식 수준에서 이해하기 쉽게 정리합니다. 예제 코드는 Google Colab 을 기반으로 작성했습니다. 자연어 처리(NLP) 개녀 잡기의 다른 포스팅도 참고하세요. 자연어 처리(NLP) 개념 잡기 (1) - 말뭉치, 토큰화 자연어 처리(NLP) 개념 잡기 (2) - 표제어, 어간 정제(Cleaning) 정제 및 정규화는 텍스트 데이터를 용도에 맞게 바꾸는 방법이다. 말뭉치로부터 노이즈 데이터를 제거한다. 토큰화 작업에 방해가 되는 부분을 제거한다. 보통 토큰화 작업 전에 정제 작업을 진행하지만 토큰화 작업 후에도 남아있는 노이즈 데이터를 지우는 데 활용하기도 한다. 정제 작업에서 제거할 노이즈 데이터라고 하면 의미가 없는 단어(특수문자, 공백 등..

Development/AI 2022.01.09

머신러닝 기초다지기, 지도 학습이란?

자연어처리 공부를 하며 남기는 기록 지도 학습 지도학습이란 샘플에 대응하는 정답을 예측하는 학습 방법 중 하나이다. 훈련 데이터로부터 하나의 함수(예측 모델)가 유추되고, 예측 모델에 대한 평가를 통해 가중치를 최적화하며 정확도를 높인다. 훈련 데이터 정답을 예측하기 위해 샘플이 되는 데이터이다. 일반적인 알고리즘에서는 Input(입력)과 같은 말이며 'x'로 표기한다. 레이블 훈련데이터에 상응하며 예측되는 대상이다. '정답'과 같은 말이며 'y'로 표기한다. 예측 모델 모델은 x를 받아 y를 예측하는 함수이다. 즉, 훈련데이터로 정답을 예측한다. 가중치 훈련 데이터를 잘 예측하기 위해서, 추가적인 제약 조건을 만족시키기 위해서 사용한다. 즉, 정확도를 높이기 ..

Development/AI 2021.12.17
반응형