반응형
10.2 워드 임베딩의 이해
10.2.1 워드 임베딩이란?
- 범주형 데이터를 수치로 변환하는 방법
- 원핫 인코딩(one-hot encoding): 범주형 데이터를 벡터 형태의 연속된 수치로 변환하는 것
- 원핫 벡터: 원핫 인코딩의 결과
- 임베딩: 범주형 데이터를 연속적인 값을 갖는, 상대적으로 작은 크기의 벡터로 변환하는 작업
- 밀집 벡터: 희소 벡터의 반대개념
- 임베딩을 수행하는 이유
- 차원이 큰 원핫 벡터를 그대로 쓰면 연산이 비효율적
- 대상 간의 의미적 유사도를 계산할 수 있음
- 단어가 의미적인 정보를 함축함으로써 연산이 가능해질 수 있음
- 전이학습을 가능하게 함
10.2.2 BOW와 문서 임베딩
- BOW에서는 단어가 아닌 문서 단위로 임베딩이 이루어짐
- 문맥에 대한 파악은 이뤄지지 않음
10.2.3 워드 임베딩과 딥러닝
- 대부분 딥러닝 기반 자연어 처리 기법에서는 문서를 단어의 시퀀스로 표현
- 문서를 직접 임베딩하기보다 단어를 임베딩하고, 임베딩된 단어의 시퀀스로 문서를 표현
- 단어의 순서를 고려해 문맥을 파악함
- 워드 임베딩에 기반한 딥러닝 자연어 처리의 핵심은 단어의 순서로부터 어떻게 문맥정보를 추출해낼지에 달려있음
※ 해당 내용은 <파이썬 텍스트 마이닝 완벽 가이드>의 내용을 토대로 학습하며 정리한 내용입니다.
반응형
'텍스트 마이닝' 카테고리의 다른 글
RNN-딥러닝을 이용한 문서 분류 (4) (0) | 2023.07.23 |
---|---|
RNN-딥러닝을 이용한 문서 분류 (3) (0) | 2023.07.22 |
RNN-딥러닝을 이용한 문서 분류 (1) (0) | 2023.07.20 |
인공신경망과 딥러닝의 이해 (0) | 2023.07.19 |
감성 분석 (3) (0) | 2023.07.18 |