반응형

자연어 처리 3

자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어

자연어 처리(NLP)를 학습할 때 필요한 용어들을 기초적인 지식 수준에서 이해하기 쉽게 정리합니다. 예제 코드는 Google Colab 을 기반으로 작성했습니다. 자연어 처리(NLP) 개녀 잡기의 다른 포스팅도 참고하세요. 자연어 처리(NLP) 개념 잡기 (1) - 말뭉치, 토큰화 자연어 처리(NLP) 개념 잡기 (2) - 표제어, 어간 정제(Cleaning) 정제 및 정규화는 텍스트 데이터를 용도에 맞게 바꾸는 방법이다. 말뭉치로부터 노이즈 데이터를 제거한다. 토큰화 작업에 방해가 되는 부분을 제거한다. 보통 토큰화 작업 전에 정제 작업을 진행하지만 토큰화 작업 후에도 남아있는 노이즈 데이터를 지우는 데 활용하기도 한다. 정제 작업에서 제거할 노이즈 데이터라고 하면 의미가 없는 단어(특수문자, 공백 등..

Development/AI 2022.01.09

자연어 처리(NLP) 개념 잡기 (2) - 표제어, 어간

자연어 처리(NLP)를 학습할 때 필요한 용어들을 기초적인 지식 수준에서 이해하기 쉽게 정리합니다. 예제 코드는 Google Colab 을 기반으로 작성했습니다. 자연어 처리(NLP) 개념 잡기의 다른 포스팅도 참고하세요. 자연어 처리(NLP) 개념 잡기 (1) - 말뭉치, 토큰화 자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어 표제어(Lemmatization) 표제어는 단어의 기본형이다. 보통 사전에 대표로 실린 단어를 뜻한다. 예를 들어 '사과들' 을 뜻하는 단어는 'apples' 이지만 이 단어의 표제어는 본래의 뜻이 '사과'인 'apple' 이다. 또한 'apples' 단어로 어간과 접사를 나누어 보면 어간:..

Development/AI 2022.01.08

자연어 처리(NLP) 개념 잡기 (1) - 말뭉치, 토큰화

자연어 처리(NLP)를 학습할 때 필요한 용어들을 기초적인 지식 수준에서 이해하기 쉽게 정리합니다. 예제 코드는 Google Colab 을 기반으로 작성했습니다. 자연어 처리(NLP) 개념 잡기의 다른 포스팅도 참고하세요. 자연어 처리(NLP) 개념 잡기 (2) - 표제어, 어간 자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어 말뭉치 말뭉치는 원시 텍스트(ASCII나 UTF-8)와 이 텍스트에 연관된 메타데이터를 포함한다. 메타데이터는 식별자, 레이블, 타임스탬프 등 텍스트와 관련된 어떤 부가 정보도 될 수 있다. 즉, 말뭉치는 텍스트를 가공·처리·분석할 수 있는 형태로 모아 놓은 자료의 집합이다. 단순하게 생각하면 우리가 사용하는 텍스트 표본이라고 볼 수 있다. 모두의 말뭉치 (kor..

Development/AI 2022.01.04
반응형