본문 바로가기

텍스트 마이닝

Word2Vec, ELMo, Doc2Vec의 이해 (2)

반응형

11.2 ELMo - 문맥에 따른 단어 의미의 구분

11.2.1 Word2Vec의 문제점

  • 동음이의어 구분의 여러움
  • ELMo(Embeddings from Language Model)를 통해 자연어 처리의 성능 향상
  • ELMo: 문맥을 반영한 워드 임베딩 모형 중 하나

11.2.2 ELMo의 구조

  • 사전학습된 양방향 LSTM을 사용해 임베딩을 수행

  • ELMo 임베딩 벡터 산출 과정

 

11.3 Doc2Vec - 문맥을 고려한 문서 임베딩

  • 문서에 대해 직접 임베딩함
  • Doc2Vec의 학습 구조

  • DM(Distributed Memory): Word2Vec의 CBOW에 문서 ID를 추가한 형태
  • DBOW(Distributed Bag of Words): Skip-Gram에 문서 ID를 추가한 형태

 

 

 

 

※ 해당 내용은 <파이썬 텍스트 마이닝 완벽 가이드>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형