본문 바로가기

텍스트 마이닝

RNN-딥러닝을 이용한 문서 분류 (2)

반응형

10.2 워드 임베딩의 이해

10.2.1 워드 임베딩이란?

  • 범주형 데이터를 수치로 변환하는 방법
  • 원핫 인코딩(one-hot encoding): 범주형 데이터를 벡터 형태의 연속된 수치로 변환하는 것
  • 원핫 벡터: 원핫 인코딩의 결과
  • 임베딩: 범주형 데이터를 연속적인 값을 갖는, 상대적으로 작은 크기의 벡터로 변환하는 작업
  • 밀집 벡터: 희소 벡터의 반대개념
  • 임베딩을 수행하는 이유
    • 차원이 큰 원핫 벡터를 그대로 쓰면 연산이 비효율적
    • 대상 간의 의미적 유사도를 계산할 수 있음
    • 단어가 의미적인 정보를 함축함으로써 연산이 가능해질 수 있음
    • 전이학습을 가능하게 함

10.2.2 BOW와 문서 임베딩

  • BOW에서는 단어가 아닌 문서 단위로 임베딩이 이루어짐
  • 문맥에 대한 파악은 이뤄지지 않음

10.2.3 워드 임베딩과 딥러닝

  • 대부분 딥러닝 기반 자연어 처리 기법에서는 문서를 단어의 시퀀스로 표현
  • 문서를 직접 임베딩하기보다 단어를 임베딩하고, 임베딩된 단어의 시퀀스로 문서를 표현
  • 단어의 순서를 고려해 문맥을 파악함
  • 워드 임베딩에 기반한 딥러닝 자연어 처리의 핵심은 단어의 순서로부터 어떻게 문맥정보를 추출해낼지에 달려있음

 

 

 

 

 

※ 해당 내용은 <파이썬 텍스트 마이닝 완벽 가이드>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형