본문 바로가기

텍스트 마이닝

어텐션(Attention)과 트랜스포머 (2)

반응형

13.3 셀프 어텐션(Self-attention)과 트랜스포머

13.3.1 셀프 어텐션의 이해

  • 셀프 어텐션의 목적은 문장 내에서 단어 간 영향을 표현하는 것
  • 어떤 단어를 벡터로 임베딩할 때, 그 단어에 영향을 미치는 다른 단어들의 정보를 함께 인코딩하고 싶은 것
  • 각 단어들에 대해 그 단어에 영향을 미치는 단어들의 정보를 선별해 자신에게 축적
  • 이 경우 각 단어가 모두 자신에게 오는 어텐션에 대한 정보를 갖고 있으므로 RNN 혹은 LSTM에 기반한 seq2seq 모형과는 달리 어느 한 벡터가 전체 문맥에 대한 정보를 축적하고 있지는 않음

13.3.2 트랜스포머의 구조

  • 현재 딥러닝을 이용한 자연어 처리 모형의 정점
  • BERT(Bidirectional Encoder Representations from Transformers)
  • 트랜스포머는 번역을 위해 개발된 모형
  • 영어를 독일어와 프랑스어로 번역한 결과를 성능의 기준으로 삼음

  • 인코더 층 구조

13.3.3 인코더의 셀프 어텐션 원리

  • query, key, value 세개의 벡터를 이용해서 계산
  • query: 어텐션을 받는 단어가 어텐션과 관련해 다른 단어들에게 던지는 질문
  • key: 그에 대한 대답

13.3.4 디코더의 작동 원리

  • 디코더에는 인코더에서 디코더로 향하는 멀티헤드 어텐션 층이 하나 더 있음
  • 디코더의 셀프 어텐션 층은 인코더와 달라 Masked가 추가되어 있음

 

 

 

 

※ 해당 내용은 <파이썬 텍스트 마이닝 완벽 가이드>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형