[딥러닝]/[NLP]

[NLP] 트랜스포머 (Transformer)

딥러닝 도전기 2022. 2. 6. 22:11

[NLP] 트랜스포머 (Transformer)

 

들어가며

 

Attention Is All You Need - 2017, A Vaswani.

https://arxiv.org/abs/1706.03762

 

Attention Is All You Need

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new

arxiv.org

인용 횟수가 35000회에 달하는 위의 "Attention Is All You Need" 논문은 장기 의존성 문제 (Long-term dependency)를 갖는 RNN과 LSTM의 한계점을 극복하는 Transformer를 제시합니다.

위의 논문에서 제시한 트랜스포머는 셀프 어텐션(self-attention)이라는 특수한 형태의 어텐션을 사용하며 현재 자연어 처리 분야의 획기적인 발전을 불러온 BERT, GPT-3 등의 모델의 기반이 됩니다.


transformer architecture - Attention Is All You Need

위의 그림은 논문에서 제시한 트랜스포머 모델 구조로, 왼쪽 block이 인코더, 오른쪽 block이 디코더를 나타냅니다.

먼저 트랜스포머의 인코더 부분을 살펴보도록 하겠습니다.

 

인코더 - Encoder

위의 그림에서 인코더 블럭과 디코더 블럭 옆에 $N\times$ 가 표기되어 있는 것을 확인하실 수 있습니다.

트랜스포머는 인코더와 디코더가 각각 $N$개씩 쌓인 형태를 보여줍니다. 각 인코더의 결과값은 그 위의 인코더로 들어가게 되며, 마지막 인코더 ($N$번째 인코더)의 결과값이 최종 표현 결과가 됩니다. (논문에서는 $N = 6$으로 설정하였습니다.)

 

  • 인코더의 작동 원리

인코더의 작동 원리를 알아보기 위하여 인코더의 세부 구성 요소를 확인해보겠습니다.

 

 

 

 

 

반응형

'[딥러닝] > [NLP]' 카테고리의 다른 글

[NLP] Word Embedding  (0) 2022.09.27
[NLP] - TextCNN  (4) 2021.11.10