[NLP] 트랜스포머 (Transformer)
들어가며
Attention Is All You Need - 2017, A Vaswani.
https://arxiv.org/abs/1706.03762
Attention Is All You Need
The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new
arxiv.org
인용 횟수가 35000회에 달하는 위의 "Attention Is All You Need" 논문은 장기 의존성 문제 (Long-term dependency)를 갖는 RNN과 LSTM의 한계점을 극복하는 Transformer를 제시합니다.
위의 논문에서 제시한 트랜스포머는 셀프 어텐션(self-attention)이라는 특수한 형태의 어텐션을 사용하며 현재 자연어 처리 분야의 획기적인 발전을 불러온 BERT, GPT-3 등의 모델의 기반이 됩니다.
위의 그림은 논문에서 제시한 트랜스포머 모델 구조로, 왼쪽 block이 인코더, 오른쪽 block이 디코더를 나타냅니다.
먼저 트랜스포머의 인코더 부분을 살펴보도록 하겠습니다.
인코더 - Encoder
위의 그림에서 인코더 블럭과 디코더 블럭 옆에 $N\times$ 가 표기되어 있는 것을 확인하실 수 있습니다.
트랜스포머는 인코더와 디코더가 각각 $N$개씩 쌓인 형태를 보여줍니다. 각 인코더의 결과값은 그 위의 인코더로 들어가게 되며, 마지막 인코더 ($N$번째 인코더)의 결과값이 최종 표현 결과가 됩니다. (논문에서는 $N = 6$으로 설정하였습니다.)
- 인코더의 작동 원리
인코더의 작동 원리를 알아보기 위하여 인코더의 세부 구성 요소를 확인해보겠습니다.
'[딥러닝] > [NLP]' 카테고리의 다른 글
[NLP] Word Embedding (0) | 2022.09.27 |
---|---|
[NLP] - TextCNN (4) | 2021.11.10 |