본문 바로가기

텍스트 마이닝

토픽 모델링으로 주제 찾기 (1)

반응형

7.1 토픽 모델링과 LDA의 이해

7.1.1 토픽 모델링이란?

  • 텍스트 마이닝 기법 중에서 가장 많이 활용되는 기법 중 하나로, 다양한 문서 집합에 내재한 토픽, 주제를 파악할 때 사용하는 방법
  • 구체적이고 명확하게 의미를 보여줄 수 있음

7.1.2 LDA 모형의 구조

  • LDA(Latent Dirichlet Allocation): 토픽 모델리에 가장 널리 쓰이는 기본적인 알고리즘

7.1.3 모형의 평가와 적절한 토픽 수의 결정

  • Perplexity: 혼란도, 혼잡도, 특정한 확률 모형이 실제로 관측되는 값을 얼마나 유사하게 예측해내는지를 평가할 때 사용, 값이 작을수록 좋음
  • 토픽 응집도(coherence): 각 토픽에서 상위 비중을 차지하는 단어들이 의미적으로 유사한지를 나타내는 척도, 값이 클수록 좋음
  • 토픽 모형의 성능을 평가할 때 가장 중요한 점은 토픽의 해석이 사람이 보기에 자연스러워야 함
 

 

 

 

※ 해당 내용은 <파이썬 텍스트 마이닝 완벽 가이드>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형

'텍스트 마이닝' 카테고리의 다른 글

토픽 모델링으로 주제 찾기 (3)  (0) 2023.07.13
토픽 모델링으로 주제 찾기 (2)  (0) 2023.07.12
차원축소 (3)  (0) 2023.07.10
차원축소 (2)  (0) 2023.07.09
차원축소 (1)  (0) 2023.07.08